交叉表分析.docx-资源下载

交叉表分析.docx

1、交叉表分析进行(jnxng)交叉表分析时需要(xyo)注意：（1）卡方检验要求各单元(dnyun)的期望频数均大于5或小于5的比例不能超过20%；当样本数小于40时，需要进行小样本的交叉表分析。即选择输出结果中的Fisher精确检验结果（Fishers Exact Test）（2）若变量为定距以上的变量需要(xyo)先转化为定类或定序变量data05-02为某公司工资数据（n=15）。使用变量性别sex、收入高低earnings分析男女(nnn)经理间薪金是否平等。可以利用data05-01中的数据，使用变量occcat80为工作性质分类，region为地区，childs为每个家庭的孩子数。将

2、childs为行变量，occcat80为列变量，region为控制变量选入Layer of框中，进行交叉表分析。列联表（交叉表）分析1、项目名称Crosstabs过程4、实训原理Crosstabs过程用于定类数据和定序数据进行统计描述和简单的统计推断。在分析时可以产生二维至n维列联表，并计算相应的百分数指标。4-1 列联表分析的含义与任务在实际分析中，当问题涉及到多个变量时，我们不仅要了解单个变量的分布特征，还要分析多个变量不同取值下的分布，掌握多变量的联合分布特征，进而分析变量之间的相互影响和关系。很明显，如果还采用单纯的频数分析方法显然不能满足要求。因此，我们需要借助交叉分组下的频数分析

3、，即列联表分析。列联表分析的主要任务有两个：（1）根据样本(yngbn)数据产生二维或多维交叉列联表。交叉列联表是两个或两个以上变量交叉分组后形成的频数分布表。（2）在交叉列联表的基础(jch)上，分析两变量之间是否具有独立性或一定的相关性。 4-2 卡方检验(jinyn)的原理(yunl)为了理解列联表中行变量（Row）和列变量（Column）之间的关系(gun x)，我们需要借助非参数检验方法。通常采用的方法是卡方检验。和一般假设检验一样，卡方检验主要包括三个步骤：（1）建立零假设：行变量和列变量相互独立。（2）选择和计算检验统计量。列联表分析中的检验统计量是Pearson卡方统计量。

4、其公式为：（4-9-1）其中，r为列联表的行数，c为列联表的列数，为实际观测频数，期望观测频数。期望频数的计算公式为：（4-9-2）其中，RT是指定单元格所在行的观测频数合计，CT是指定单元格所在列的观测频数合计，n是观测频数的合计。由式（4-9-1）可以看出，卡方统计量的大小取决于两个因素：一个是列联表的格子数；另一个是观测频数和期望频数的差值。在列联表固定的情况(qngkung)下，卡方统计量取值的大小取决于观测频数和期望频数的总差值。当总差值越大时，卡方值也就越大，表明行列变量之间越相关；反之，当总差值越小时，卡方值也就越小，表明行列变量之间越独立。（3）得出结论并做决策(juc)。根据

5、卡方统计量的概率P值和显著性水平进行比较，做出拒绝还是接受原假设的结论。如果卡方检验(jinyn)的概率P值小于显著性水平，则拒绝原假设(jish)，认为行列变量之间不独立，两者之间存在依存关系。反之，如果卡方检验的概率P值大于显著性水平，则接受原假设，认为行列变量(binling)之间独立，两者之间不存在依存关系。在卡方检验中还需要注意：交叉列联表中不应有期望频数小于1的单元格，或者不应有大量期望频数小于5的单元格。如果交叉列联表中有20%以上单元格中的期望频数小于5，则不应用卡方检验，可以采用似然比（Likelihood Ratio）卡方检验等方法进行修正。5、背景材料某新产品上市前一个月

6、中，分别对北京、上海、深圳三地进行了市场调查，调查表中有一项是关于顾客获知该产品的渠道。随机抽取了300份调查表，统计顾客获知产品渠道的数据如下，SPSS数据文件见4-9.sav。表4-9-1 顾客获知某新产品渠道的调查数据城市北京上海深圳合计朋友电视网络报刊2096034261333261653028622712388合计12398793006、实训步骤(bzhu)6-1 选择(xunz)菜单“Analyze”“Descriptive Statistics”“Crosstabs”弹出如图4-9-1所示的窗口(chungku)，进入列联表分析(fnx)界面。图4-9-1 列联表分析(fnx)

7、窗口6-2 选择列联表中的行变量进入Row(s)框，如表4-9-1中的获取新产品的渠道变量。6-3 选择列连表中的列变量进入Column(s)框，如表4-9-1中的城市变量。6-4 Layer框：Layer指的是层，对话框中的许多设置都可以分层设定，在同一层中的变量使用相同的设置，而不同层中的变量分别使用各自层的设置。如果要让不同的变量做不同的分析，则将其选入Layer框，并用Previous和Next钮设为不同层。Layer在这里用的比较少，在多元回归中我们将进行详细的解释。6-5 选择(xunz)Display clustered bar charts复选框表示(biosh)输出分组条图。

8、选择(xunz)Suppress table复选框表示(biosh)禁止在结果(ji gu)中输出列联表。6-6 单击按钮，弹出Exact Tests子对话框，如图4-9-2所示。图4-9-2 Exact Tests子对话框Exact Tests子对话框是针对2*2以上的行*列表设定计算确切概率的方法，可以是不计算（Asymptotic only）、蒙特卡罗模拟（Monte Carlo）或确切计算（Exact）。其中，系统默认是不计算；蒙特卡罗模拟默认进行10000次模拟，给出99%置信区间；确切计算默认计算时间限制在5分钟内。这些默认值均可更改。6-7 单击按钮，弹出Statistics子对

9、话框，用于定义所需计算的统计量。如图4-9-3所示。图4-9-3 Statistics子对话框Statistics子对话框包括(boku)：（1）Chi-square复选框：选择(xunz)是否进行卡方检验，计算(j sun)值。（2）Correlaitons复选框：计算(j sun)列联表两变量(binling)的Pearson相关系数和Spearman等级相关系数。（3）Nominal复选框组：选择是否输出反映分类资料相关性的指标，很少使用，共有四个选项：Contingency coefficient复选框：列联系数，其值界于01之间，取值越大说明两变量之间的相关性越强。Phi and

10、Cramers V复选框：这两者也是基于值的，Phi在四格表检验中界于-11之间，在R*C表检验中界于01之间；Cramers V则界于01之间。该指标的绝对值越大，说明两变量之间的相关性越强。Lambda复选框：在自变量预测(yc)中用于反映比例缩减误差，其值为1时表明自变量预测因变量(binling)好，为0时表明(biomng)自变量预测因变量(binling)差。Uncertainty coefficient复选框：不确定系数，以熵为标准的比例缩减误差，其值接近(jijn)1时表明后一变量的信息很大程度来自前一变量，其值接近0时表明后一变量的信息与前一变量无关。(4)Ordianl复选

11、框组：选择是否输出反映定序资料相关性的指标，很少使用。包括以下组成部分：Gamma复选框：界于-11之间，所有观察实际数集中于左上角和右下角时，其值为1，取1和-1代表两变量完全一致或不一致，取0代表两变量完全不相关。Somersd复选框：为独立变量上不存在同分的偶对中，同序对子数超过异序对子数的比例。界于-11之间，结果解释同上；Kendalls tau-b复选框：界于-11之间，结果解释同上；Kendalls tau-c复选框：界于-11之间，结果解释同上；（5）Nominal by Interval：Eta复选框：计算Eta值，用于分类变量的检验，其平方值可认为是因变量受不同因素影响所致

12、方差的比例；（6）Kappa复选框：计算Kappa值，即内部一致性系数。通常Kappa大于0.75则认为两变量的一致性较好；小于0.4则认为两变量的一致性较差；（7）Risk复选框：计算相对危险系数；（8）McNemar复选框：进行(jnxng)McNemar检验(jinyn)（一种非参检验），该检验只有(zhyu)在行列数相等时才能用；（9）Cochrans and Mantel-Haenszel statistics复选框：进行(jnxng)独立性和齐性检验。6-8 单击按钮弹出Cell子对话框，用于定义列联表单元格中需要(xyo)计算的指标，如图4-9-4所示。图4-9-4 Cell子

13、对话框Cell子对话框主要包括以下几部分：Counts复选框：是否输出实际观察数( Observed)和期望数（Expected）；Percentages复选框：是否输出行百分数（Row）、列百分数（Column）以及合计百分数（Total）；Residuals复选框：选择(xunz)残差的显示方式，可以是实际数与期望(qwng)数的差值（Unstandardized）、标化后的差值（standardized，将差值转化(zhunhu)为标准正态分布），或者(huzh)被标准(biozhn)误除的单元格残差（Adj.standardized）；Noninteger Weights：当频数因为加

14、权而变成小数时，选择该项对频数进行取整。主要包括五种方法：Round cell counts：对频数进行四舍五入取整；Round case weights：对加权样本在使用前进行四舍五入取整；Truncate cell counts：对频数进行舍位取整；Truncate case weights：对加权样本在使用前进行舍位取整；No adjustments：不调整。6-9 单击按钮，弹出Format子对话框，用于选择行变量是升序还是降序。单击按钮返回主界面，单击按钮完成操作。7、实训解析由于背景资料中表4-9-1的数据给出的直接是频数表，因此在建立SPSS数据集时可以直接输入三个变量：行变量、

15、列变量和指示每个单元格中频数的变量，然后指定频数变量，最后进行检验。因此，我们要检验原假设：“获知方式”与“城市”两变量之间是独立的，需要首先用Data菜单中的“Weight Cases”命令，设置频数变量；然后在“Crosstabs”命令中将“获知方式”、“城市”分别设置为行列变量；选中Display clustered bar charts选项，在Statistics对话框中选择Chi-square选项，在Cells对话框中选择Observed、Expectde选项，设置完成后点击OK按钮，完成操作，结果如表4-9-2、表4-9-3和图4-9-5所示。表4-9-3是卡方检验结果，共使用了三

16、种(sn zhn)检验方法。Pearson Chi-Square的显著水平0.107大于0.05，因此不能拒绝原假设(jish)，认为“获知(huzh)方式”与“城市(chngsh)”两变量(binling)之间独立，即它们之间不存在相互依赖关系。表4-9-2 列联表获知方式 * 城市 Crosstabulation城市Total北京上海深圳获知方式报刊Count34262888Expected Count36.128.723.288.0网络Count603330123Expected Count50.440.232.4123.0电视Count913527Expected Count11.1

17、8.87.127.0朋友Count20261662Expected Count25.420.316.362.0TotalCount1239879300Expected Count123.098.079.0300.0表4-9-3 卡方检验结果Chi-Square TestsValuedfAsymp. Sig. (2-sided)Pearson Chi-Square10.450a6.107Likelihood Ratio10.1836.117Linear-by-Linear Association.0461.830N of Valid Cases300a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 7.11.图4-9-5 获知方式(fngsh)与城市交叉分组的条形图内容总结（1）进行交叉表分析时需要注意：（1）卡方检验要求各单元的期望频数均大于5或小于5的比例不能超过20%（2）将childs为行变量，occcat80为列变量，region为控制变量选入Layer of框中，进行交叉表分析（3）Lambda复选框：在自变量预测中用于反映比例缩减误差，其值为1时表明自变量预测因变量好，为0时表明自变量预测因变量差

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？