交叉表分析Word格式.docx

上传人:b****5 文档编号:19624037 上传时间:2023-01-08 格式:DOCX 页数:10 大小:2.17MB
下载 相关 举报
交叉表分析Word格式.docx_第1页
第1页 / 共10页
交叉表分析Word格式.docx_第2页
第2页 / 共10页
交叉表分析Word格式.docx_第3页
第3页 / 共10页
交叉表分析Word格式.docx_第4页
第4页 / 共10页
交叉表分析Word格式.docx_第5页
第5页 / 共10页
点击查看更多>>
下载资源
资源描述

交叉表分析Word格式.docx

《交叉表分析Word格式.docx》由会员分享,可在线阅读,更多相关《交叉表分析Word格式.docx(10页珍藏版)》请在冰豆网上搜索。

交叉表分析Word格式.docx

(1)根据样本(yà

ngběn)数据产生二维或多维交叉列联表。

交叉列联表是两个或两个以上变量交叉分组后形成的频数分布表。

(2)在交叉列联表的基础(jīchǔ)上,分析两变量之间是否具有独立性或一定的相关性。

4-2卡方检验(jiǎnyà

n)的原理(yuá

nlǐ)

为了理解列联表中行变量(Row)和列变量(Column)之间的关系(guānxì

),我们需要借助非参数检验方法。

通常采用的方法是卡方检验。

和一般假设检验一样,卡方检验主要包括三个步骤:

(1)建立零假设:

行变量和列变量相互独立。

(2)选择和计算检验统计量。

列联表分析中的检验统计量是Pearson卡方统计量。

其公式为:

(4-9-1)

其中,r为列联表的行数,c为列联表的列数,

为实际观测频数,

期望观测频数。

期望频数的计算公式为:

(4-9-2)

其中,RT是指定单元格所在行的观测频数合计,CT是指定单元格所在列的观测频数合计,n是观测频数的合计。

由式(4-9-1)可以看出,卡方统计量的大小取决于两个因素:

一个是列联表的格子数;

另一个是观测频数和期望频数的差值。

在列联表固定的情况(qí

ngkuà

ng)下,卡方统计量取值的大小取决于观测频数和期望频数的总差值。

当总差值越大时,卡方值也就越大,表明行列变量之间越相关;

反之,当总差值越小时,卡方值也就越小,表明行列变量之间越独立。

(3)得出结论并做决策(jué

)。

根据卡方统计量的概率P值和显著性水平

进行比较,做出拒绝还是接受原假设的结论。

如果卡方检验(jiǎnyà

n)的概率P值小于显著性水平

,则拒绝原假设(jiǎshè

),认为行列变量之间不独立,两者之间存在依存关系。

反之,如果卡方检验的概率P值大于显著性水平

,则接受原假设,认为行列变量(bià

nlià

ng)之间独立,两者之间不存在依存关系。

在卡方检验中还需要注意:

交叉列联表中不应有期望频数小于1的单元格,或者不应有大量期望频数小于5的单元格。

如果交叉列联表中有20%以上单元格中的期望频数小于5,则不应用卡方检验,可以采用似然比(LikelihoodRatio)卡方检验等方法进行修正。

5、背景材料

某新产品上市前一个月中,分别对北京、上海、深圳三地进行了市场调查,调查表中有一项是关于顾客获知该产品的渠道。

随机抽取了300份调查表,统计顾客获知产品渠道的数据如下,SPSS数据文件见4-9.sav。

表4-9-1顾客获知某新产品渠道的调查数据

城市

北京

上海

深圳

合计

朋友

电视

网络

报刊

20

9

60

34

26

13

33

16

5

30

28

62

27

123

88

98

79

300

6、实训步骤(bù

zhò

u)

6-1选择(xuǎnzé

)菜单“Analyze”→“DescriptiveStatistics”→“Crosstabs”弹出如图4-9-1所示的窗口(chuāngkǒu),进入列联表分析(fēnxī)界面。

图4-9-1列联表分析(fēnxī)窗口

6-2选择列联表中的行变量进入Row(s)框,如表4-9-1中的获取新产品的渠道变量。

6-3选择列连表中的列变量进入Column(s)框,如表4-9-1中的城市变量。

6-4Layer框:

Layer指的是层,对话框中的许多设置都可以分层设定,在同一层中的变量使用相同的设置,而不同层中的变量分别使用各自层的设置。

如果要让不同的变量做不同的分析,则将其选入Layer框,并用Previous和Next钮设为不同层。

Layer在这里用的比较少,在多元回归中我们将进行详细的解释。

6-5选择(xuǎnzé

)Displayclusteredbarcharts复选框表示(biǎoshì

)输出分组条图。

选择(xuǎnzé

)Suppresstable复选框表示(biǎoshì

)禁止在结果(jiēguǒ)中输出列联表。

6-6单击

按钮,弹出ExactTests子对话框,如图4-9-2所示。

图4-9-2ExactTests子对话框

ExactTests子对话框是针对2*2以上的行*列表设定计算确切概率的方法,可以是不计算(Asymptoticonly)、蒙特卡罗模拟(MonteCarlo)或确切计算(Exact)。

其中,系统默认是不计算;

蒙特卡罗模拟默认进行10000次模拟,给出99%置信区间;

确切计算默认计算时间限制在5分钟内。

这些默认值均可更改。

6-7单击

按钮,弹出Statistics子对话框,用于定义所需计算的统计量。

如图4-9-3所示。

 

图4-9-3Statistics子对话框

Statistics子对话框包括(bāokuò

):

(1)Chi-square复选框:

)是否进行卡方检验,计算(jì

suà

n)

值。

(2)Correlaitons复选框:

计算(jì

n)列联表两变量(bià

ng)的Pearson相关系数和Spearman等级相关系数。

(3)Nominal复选框组:

选择是否输出反映分类资料相关性的指标,很少使用,共有四个选项:

Contingencycoefficient复选框:

列联系数,其值界于0~1之间,取值越大说明两变量之间的相关性越强。

PhiandCramer’sV复选框:

这两者也是基于

值的,Phi在四格表

检验中界于-1~1之间,在R*C表

检验中界于0~1之间;

Cramer’sV则界于0~1之间。

该指标的绝对值越大,说明两变量之间的相关性越强。

Lambda复选框:

在自变量预测(yù

)中用于反映比例缩减误差,其值为1时表明自变量预测因变量(bià

ng)好,为0时表明(biǎomí

ng)自变量预测因变量(bià

ng)差。

Uncertaintycoefficient复选框:

不确定系数,以熵为标准的比例缩减误差,其值接近(jiējì

n)1时表明后一变量的信息很大程度来自前一变量,其值接近0时表明后一变量的信息与前一变量无关。

(4)Ordianl复选框组:

选择是否输出反映定序资料相关性的指标,很少使用。

包括以下组成部分:

Gamma复选框:

界于-1~1之间,所有观察实际数集中于左上角和右下角时,其值为1,取1和-1代表两变量完全一致或不一致,取0代表两变量完全不相关。

Somers’d复选框:

为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例。

界于-1~1之间,结果解释同上;

Kendall’stau-b复选框:

Kendall’stau-c复选框:

(5)NominalbyInterval:

Eta复选框:

计算Eta值,用于分类变量的检验,其平方值可认为是因变量受不同因素影响所致方差的比例;

(6)Kappa复选框:

计算Kappa值,即内部一致性系数。

通常Kappa大于0.75则认为两变量的一致性较好;

小于0.4则认为两变量的一致性较差;

(7)Risk复选框:

计算相对危险系数;

(8)McNemar复选框:

ng)McNemar检验(jiǎnyà

n)(一种非参检验),该检验只有(zhǐyǒu)在行列数相等时才能用;

(9)Cochran’sandMantel-Haenszelstatistics复选框:

ng)独立性和齐性检验。

6-8单击

按钮弹出Cell子对话框,用于定义列联表单元格中需要(xūyà

o)计算的指标,如图4-9-4所示。

图4-9-4Cell子对话框

Cell子对话框主要包括以下几部分:

Counts复选框:

是否输出实际观察数(Observed)和期望数(Expected);

Percentages复选框:

是否输出行百分数(Row)、列百分数(Column)以

及合计百分数(Total);

Residuals复选框:

)残差的显示方式,可以是实际数与期望(qīwà

ng)数的差值(Unstandardized)、标化后的差值(standardized,将差值转化(zhuǎnhuà

)为标准正态分布),或者(huò

zhě)被标准(biāozhǔn)误除的单元格残差(Adj.standardized);

NonintegerWeights:

当频数因为加权而变成小数时,选择该项对频数进行取整。

主要包括五种方法:

Roundcellcounts:

对频数进行四舍五入取整;

Roundcaseweights:

对加权样本在使用前进行四舍五入取整;

Truncatecellcounts:

对频数进行舍位取整;

Truncatecaseweights:

对加权样本在使用前进行舍位取整;

Noadjustments:

不调整。

6-9单击

按钮,弹出Format子对话框,用于选择行变量是升序还是降序。

单击

按钮返回主界面,单击

按钮完成操作。

7、实训解析

由于背景资料中表4-9-1的数据给出的直接是频数表,因此在建立SPSS数据集时可以直接输入三个变量:

——行变量、列变量和指示每个单元格中频数的变量,然后指定频数变量,最后进行

检验。

因此,我们要检验原假设:

“获知方式”与“城市”两变量之间是独立的,需要首先用Data菜单中的“WeightCases”命令,设置频数变量;

然后在“Crosstabs”命令中将“获知方式”、“城市”分别设置为行列变量;

选中Displayclusteredbarcharts选项,在Statistics对话框中选择Chi-square选项,在Cells对话框中选择Observed、Expectde选项,设置完成后点击OK按钮,完成操作,结果如表4-9-2、表4-9-3和图4-9-5所示。

表4-9-3是卡方检验结果,共使用了三种(sānzhǒnɡ)检验方法。

PearsonChi-Square的显著水平0.107大于0.05,因此不能拒绝原假设(jiǎshè

),认为“获知(huò

zhī)方式”与“城市(ché

ngshì

)”两变量(bià

ng)之间独立,即它们之间不存在相互依赖关系。

表4-9-2列联表获知方式*城市Crosstabulation

Total

获知方式

Count

ExpectedCount

36.1

28.7

23.2

88.0

50.4

40.2

32.4

123.0

11.1

8.8

7.1

27.0

25.4

20.3

16.3

62.0

98.0

79.0

300.0

表4-9-3卡方检验结果Chi-SquareTests

Value

df

Asymp.Sig.(2-sided)

PearsonChi-Square

10.450a

6

.107

LikelihoodRatio

10.183

.117

Linear-by-LinearAssociation

.046

1

.830

NofValidCases

a.0cells(.0%)haveexpectedcountlessthan5.Theminimumexpectedcountis7.11.

图4-9-5获知方式(fāngshì

)与城市交叉分组的条形图

内容总结

(1)进行交叉表分析时需要注意:

(1)卡方检验要求各单元的期望频数均大于5或小于5的比例不能超过20%

(2)将childs为行变量,occcat80为列变量,region为控制变量选入Layerof框中,进行交叉表分析

(3)Lambda复选框:

在自变量预测中用于反映比例缩减误差,其值为1时表明自变量预测因变量好,为0时表明自变量预测因变量差

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 职业规划

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1