交叉表分析.docx

上传人:b****5 文档编号:6610292 上传时间:2023-01-08 格式:DOCX 页数:10 大小:2.17MB
下载 相关 举报
交叉表分析.docx_第1页
第1页 / 共10页
交叉表分析.docx_第2页
第2页 / 共10页
交叉表分析.docx_第3页
第3页 / 共10页
交叉表分析.docx_第4页
第4页 / 共10页
交叉表分析.docx_第5页
第5页 / 共10页
点击查看更多>>
下载资源
资源描述

交叉表分析.docx

《交叉表分析.docx》由会员分享,可在线阅读,更多相关《交叉表分析.docx(10页珍藏版)》请在冰豆网上搜索。

交叉表分析.docx

交叉表分析

进行(jìnxíng)交叉表分析时需要(xūyào)注意:

(1)卡方检验要求各单元(dānyuán)的期望频数均大于5或小于5的比例不能超过20%;当样本数小于40时,需要进行小样本的交叉表分析。

即选择输出结果中的Fisher精确检验结果(Fisher'sExactTest)

(2)若变量为定距以上的变量需要(xūyào)先转化为定类或定序变量

data05-02为某公司工资数据(n=15)。

使用变量性别sex、收入高低earnings分析男女(nánnǚ)经理间薪金是否平等。

可以利用data05-01中的数据,使用变量occcat80为工作性质分类,region为地区,childs为每个家庭的孩子数。

将childs为行变量,occcat80为列变量,region为控制变量选入Layerof框中,进行交叉表分析。

列联表(交叉表)分析

1、项目名称

Crosstabs过程

4、实训原理

Crosstabs过程用于定类数据和定序数据进行统计描述和简单的统计推断。

在分析时可以产生二维至n维列联表,并计算相应的百分数指标。

4-1列联表分析的含义与任务

在实际分析中,当问题涉及到多个变量时,我们不仅要了解单个变量的分布特征,还要分析多个变量不同取值下的分布,掌握多变量的联合分布特征,进而分析变量之间的相互影响和关系。

很明显,如果还采用单纯的频数分析方法显然不能满足要求。

因此,我们需要借助交叉分组下的频数分析,即列联表分析。

列联表分析的主要任务有两个:

(1)根据样本(yàngběn)数据产生二维或多维交叉列联表。

交叉列联表是两个或两个以上变量交叉分组后形成的频数分布表。

(2)在交叉列联表的基础(jīchǔ)上,分析两变量之间是否具有独立性或一定的相关性。

4-2卡方检验(jiǎnyàn)的原理(yuánlǐ)

为了理解列联表中行变量(Row)和列变量(Column)之间的关系(guānxì),我们需要借助非参数检验方法。

通常采用的方法是卡方检验。

和一般假设检验一样,卡方检验主要包括三个步骤:

(1)建立零假设:

行变量和列变量相互独立。

(2)选择和计算检验统计量。

列联表分析中的检验统计量是Pearson卡方统计量。

其公式为:

(4-9-1)

其中,r为列联表的行数,c为列联表的列数,

为实际观测频数,

期望观测频数。

期望频数的计算公式为:

(4-9-2)

其中,RT是指定单元格所在行的观测频数合计,CT是指定单元格所在列的观测频数合计,n是观测频数的合计。

由式(4-9-1)可以看出,卡方统计量的大小取决于两个因素:

一个是列联表的格子数;另一个是观测频数和期望频数的差值。

在列联表固定的情况(qíngkuàng)下,卡方统计量取值的大小取决于观测频数和期望频数的总差值。

当总差值越大时,卡方值也就越大,表明行列变量之间越相关;反之,当总差值越小时,卡方值也就越小,表明行列变量之间越独立。

(3)得出结论并做决策(juécè)。

根据卡方统计量的概率P值和显著性水平

进行比较,做出拒绝还是接受原假设的结论。

如果卡方检验(jiǎnyàn)的概率P值小于显著性水平

,则拒绝原假设(jiǎshè),认为行列变量之间不独立,两者之间存在依存关系。

反之,如果卡方检验的概率P值大于显著性水平

,则接受原假设,认为行列变量(biànliàng)之间独立,两者之间不存在依存关系。

在卡方检验中还需要注意:

交叉列联表中不应有期望频数小于1的单元格,或者不应有大量期望频数小于5的单元格。

如果交叉列联表中有20%以上单元格中的期望频数小于5,则不应用卡方检验,可以采用似然比(LikelihoodRatio)卡方检验等方法进行修正。

5、背景材料

某新产品上市前一个月中,分别对北京、上海、深圳三地进行了市场调查,调查表中有一项是关于顾客获知该产品的渠道。

随机抽取了300份调查表,统计顾客获知产品渠道的数据如下,SPSS数据文件见4-9.sav。

表4-9-1顾客获知某新产品渠道的调查数据

城市

北京

上海

深圳

合计

朋友

电视

网络

报刊

20

9

60

34

26

13

33

26

16

5

30

28

62

27

123

88

合计

123

98

79

300

6、实训步骤(bùzhòu)

6-1选择(xuǎnzé)菜单“Analyze”→“DescriptiveStatistics”→“Crosstabs”弹出如图4-9-1所示的窗口(chuāngkǒu),进入列联表分析(fēnxī)界面。

图4-9-1列联表分析(fēnxī)窗口

6-2选择列联表中的行变量进入Row(s)框,如表4-9-1中的获取新产品的渠道变量。

6-3选择列连表中的列变量进入Column(s)框,如表4-9-1中的城市变量。

6-4Layer框:

Layer指的是层,对话框中的许多设置都可以分层设定,在同一层中的变量使用相同的设置,而不同层中的变量分别使用各自层的设置。

如果要让不同的变量做不同的分析,则将其选入Layer框,并用Previous和Next钮设为不同层。

Layer在这里用的比较少,在多元回归中我们将进行详细的解释。

6-5选择(xuǎnzé)Displayclusteredbarcharts复选框表示(biǎoshì)输出分组条图。

选择(xuǎnzé)Suppresstable复选框表示(biǎoshì)禁止在结果(jiēguǒ)中输出列联表。

6-6单击

按钮,弹出ExactTests子对话框,如图4-9-2所示。

图4-9-2ExactTests子对话框

ExactTests子对话框是针对2*2以上的行*列表设定计算确切概率的方法,可以是不计算(Asymptoticonly)、蒙特卡罗模拟(MonteCarlo)或确切计算(Exact)。

其中,系统默认是不计算;蒙特卡罗模拟默认进行10000次模拟,给出99%置信区间;确切计算默认计算时间限制在5分钟内。

这些默认值均可更改。

6-7单击

按钮,弹出Statistics子对话框,用于定义所需计算的统计量。

如图4-9-3所示。

 

图4-9-3Statistics子对话框

Statistics子对话框包括(bāokuò):

(1)Chi-square复选框:

选择(xuǎnzé)是否进行卡方检验,计算(jìsuàn)

值。

(2)Correlaitons复选框:

计算(jìsuàn)列联表两变量(biànliàng)的Pearson相关系数和Spearman等级相关系数。

(3)Nominal复选框组:

选择是否输出反映分类资料相关性的指标,很少使用,共有四个选项:

Contingencycoefficient复选框:

列联系数,其值界于0~1之间,取值越大说明两变量之间的相关性越强。

PhiandCramer’sV复选框:

这两者也是基于

值的,Phi在四格表

检验中界于-1~1之间,在R*C表

检验中界于0~1之间;Cramer’sV则界于0~1之间。

该指标的绝对值越大,说明两变量之间的相关性越强。

Lambda复选框:

在自变量预测(yùcè)中用于反映比例缩减误差,其值为1时表明自变量预测因变量(biànliàng)好,为0时表明(biǎomíng)自变量预测因变量(biànliàng)差。

Uncertaintycoefficient复选框:

不确定系数,以熵为标准的比例缩减误差,其值接近(jiējìn)1时表明后一变量的信息很大程度来自前一变量,其值接近0时表明后一变量的信息与前一变量无关。

(4)Ordianl复选框组:

选择是否输出反映定序资料相关性的指标,很少使用。

包括以下组成部分:

Gamma复选框:

界于-1~1之间,所有观察实际数集中于左上角和右下角时,其值为1,取1和-1代表两变量完全一致或不一致,取0代表两变量完全不相关。

Somers’d复选框:

为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例。

界于-1~1之间,结果解释同上;

Kendall’stau-b复选框:

界于-1~1之间,结果解释同上;

Kendall’stau-c复选框:

界于-1~1之间,结果解释同上;

(5)NominalbyInterval:

Eta复选框:

计算Eta值,用于分类变量的检验,其平方值可认为是因变量受不同因素影响所致方差的比例;

(6)Kappa复选框:

计算Kappa值,即内部一致性系数。

通常Kappa大于0.75则认为两变量的一致性较好;小于0.4则认为两变量的一致性较差;

(7)Risk复选框:

计算相对危险系数;

(8)McNemar复选框:

进行(jìnxíng)McNemar检验(jiǎnyàn)(一种非参检验),该检验只有(zhǐyǒu)在行列数相等时才能用;

(9)Cochran’sandMantel-Haenszelstatistics复选框:

进行(jìnxíng)独立性和齐性检验。

6-8单击

按钮弹出Cell子对话框,用于定义列联表单元格中需要(xūyào)计算的指标,如图4-9-4所示。

图4-9-4Cell子对话框

Cell子对话框主要包括以下几部分:

Counts复选框:

是否输出实际观察数(Observed)和期望数(Expected);

Percentages复选框:

是否输出行百分数(Row)、列百分数(Column)以

及合计百分数(Total);

Residuals复选框:

选择(xuǎnzé)残差的显示方式,可以是实际数与期望(qīwàng)数的差值(Unstandardized)、标化后的差值(standardized,将差值转化(zhuǎnhuà)为标准正态分布),或者(huòzhě)被标准(biāozhǔn)误除的单元格残差(Adj.standardized);

NonintegerWeights:

当频数因为加权而变成小数时,选择该项对频数进行取整。

主要包括五种方法:

Roundcellcounts:

对频数进行四舍五入取整;Roundcaseweights:

对加权样本在使用前进行四舍五入取整;Truncatecellcounts:

对频数进行舍位取整;Truncatecaseweights:

对加权样本在使用前进行舍位取整;Noadjustments:

不调整。

6-9单击

按钮,弹出Format子对话框,用于选择行变量是升序还是降序。

单击

按钮返回主界面,单击

按钮完成操作。

7、实训解析

由于背景资料中表4-9-1的数据给出的直接是频数表,因此在建立SPSS数据集时可以直接输入三个变量:

——行变量、列变量和指示每个单元格中频数的变量,然后指定频数变量,最后进行

检验。

因此,我们要检验原假设:

“获知方式”与“城市”两变量之间是独立的,需要首先用Data菜单中的“WeightCases”命令,设置频数变量;然后在“Crosstabs”命令中将“获知方式”、“城市”分别设置为行列变量;选中Displayclusteredbarcharts选项,在Statistics对话框中选择Chi-square选项,在Cells对话框中选择Observed、Expectde选项,设置完成后点击OK按钮,完成操作,结果如表4-9-2、表4-9-3和图4-9-5所示。

表4-9-3是卡方检验结果,共使用了三种(sānzhǒnɡ)检验方法。

PearsonChi-Square的显著水平0.107大于0.05,因此不能拒绝原假设(jiǎshè),认为“获知(huòzhī)方式”与“城市(chéngshì)”两变量(biànliàng)之间独立,即它们之间不存在相互依赖关系。

表4-9-2列联表获知方式*城市Crosstabulation

城市

Total

北京

上海

深圳

获知方式

报刊

Count

34

26

28

88

ExpectedCount

36.1

28.7

23.2

88.0

网络

Count

60

33

30

123

ExpectedCount

50.4

40.2

32.4

123.0

电视

Count

9

13

5

27

ExpectedCount

11.1

8.8

7.1

27.0

朋友

Count

20

26

16

62

ExpectedCount

25.4

20.3

16.3

62.0

Total

Count

123

98

79

300

ExpectedCount

123.0

98.0

79.0

300.0

表4-9-3卡方检验结果Chi-SquareTests

Value

df

Asymp.Sig.(2-sided)

PearsonChi-Square

10.450a

6

.107

LikelihoodRatio

10.183

6

.117

Linear-by-LinearAssociation

.046

1

.830

NofValidCases

300

a.0cells(.0%)haveexpectedcountlessthan5.Theminimumexpectedcountis7.11.

图4-9-5获知方式(fāngshì)与城市交叉分组的条形图

内容总结

(1)进行交叉表分析时需要注意:

(1)卡方检验要求各单元的期望频数均大于5或小于5的比例不能超过20%

(2)将childs为行变量,occcat80为列变量,region为控制变量选入Layerof框中,进行交叉表分析

(3)Lambda复选框:

在自变量预测中用于反映比例缩减误差,其值为1时表明自变量预测因变量好,为0时表明自变量预测因变量差

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 医药卫生

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1