第十四章交叉表分析法.docx
《第十四章交叉表分析法.docx》由会员分享,可在线阅读,更多相关《第十四章交叉表分析法.docx(7页珍藏版)》请在冰豆网上搜索。
![第十四章交叉表分析法.docx](https://file1.bdocx.com/fileroot1/2022-10/25/49d0b9ac-6559-4de5-9cb6-7758b85952ed/49d0b9ac-6559-4de5-9cb6-7758b85952ed1.gif)
第十四章交叉表分析法
第十四章--交叉表分析法(课件)
多变量描述统计分析
交叉表分析法
一、交叉表分析法的概念
交叉表(交叉列联表)分析法是一种以表格的形式同时描述两个或多个变量的联合分布及其结果的统计分析方法,此表格反映了这些只有有限分类或取值的离散变量的联合分布。
当交叉表只涉及两个定类变量时,交叉表又叫做相依表。
交叉列联表分析易于理解,便于解释,操作简单却可以解释比较复杂的现象,因而在市场调查中应用非常广泛。
频数分布一次描述一个变量,交叉表可同时描述两个或更多变量。
交叉表法的起点是单变量数据,然后依研究目的将这些数据分成两个或多个细目。
下面是一个描述交叉表法应用的例子。
某保险公司对影响保户开车事故率的因素进行调研,并对各种因素进行了交叉表分析。
表1驾驶员的事故率
类别
比率,%
无事故
61
至少有一次事故
39
样本总数,人
17800
从初始表1中可以看出,有61%的保险户在开车过程中从未出现过事故。
然后,在性别基础上分解这个信息,判断是否在男女驾车者之间有差别。
这样就出现了二维交叉表2。
表2男女驾驶员的事故率
类别
男,%
女,%
无事故
56
66
至少有一次事故
44
34
样本总数,人
9320
8480
这个表的结果令男士懊恼,因为他们的事故率较女士驾车时涉及的事故率要高。
但人们会提出这样的疑问而否定上述判断的正确性,即男士的事故多,是因为他们驾驶的路程较长。
这样就引出第三个因素"驾驶距离",于是出现了三维交叉表3。
表3不同驾驶距离下的事故率
类别
男,%
女,%
驾驶距离
>1万公里
<1万公里
>1万公里
<1万公里
无事故
51
73
50
73
至少有一次事故
49
27
50
27
样本总数,人
7170
2150
2430
6050
结果表明,男士驾驶者的高事故率是由于他们的驾驶距离较女士长,但并没有证明男士和女士哪个驾驶得更好或更谨慎,仅证明了驾车事故率只与驾驶距离成正比,而与驾驶者的性别无关。
二、两变量交叉列联表分析
例如,研究城镇居民在某地的居住时间与其对当地百货商场的熟悉程度之间的关系,对“居住时间”和“熟悉程度”这两个变量进行交叉列联分析。
如表4所示。
表4居住时间与对百货商场的熟悉程度的交叉列联分析(频数)
熟悉程度
居住时间
合计
13年以下
13年~30年
30年以上
不熟悉
熟悉
45
52
34
53
55
27
134
132
合计
97
87
82
266
那么,到底居住时间与对商场的熟悉程度有没有关系呢?
由表4可见,居住时间低于30年的居民比居住时间在30年以上的居民似乎更熟悉百货商场。
进一步计算出百分比,则可以看得更直观一些。
见表5。
表5居住时间与对百货商场的熟悉程度的交叉列联分析(%)
熟悉程度
居住时间
13年以下
13年~30年
30年以上
不熟悉
熟悉
46.4
53.6
39.1
60.9
67.1
32.9
合计
100.0
100.0
100.0
行百分比与列百分比的选择取决于哪个变量是因变量哪个变量是自变量。
一般的规则是,在自变量的方向上,对因变量计算百分比。
以表5为例,居住时间为自变量,对商场的熟悉程度为因变量,因而可以对各居住时间分别计算熟悉程度的百分比。
由表5可见,53.6%的居住时间低于13年的人和60.9%的居住时间在13年~30年的人都熟悉该商店,而只有32.9%的居住时间在30年以上的人熟悉该商店。
看来,同样住在该地区的人,居住时间越长,对购物环境反而更不熟悉。
这个结论是有一定道理的,在一个地方居住很长时间的人一般相对来说更没有动力去熟悉该商场。
如果我们在因变量的方向上对自变量计算百分比(如表6所示),则显然没意义。
表6居住时间与对百货商场的熟悉程度的交叉列联分析(%)
熟悉程度
居住时间
行合计
13年以下
13年~30年
30年以上
不熟悉
熟悉
33.6
39.4
25.4
40.1
41.0
20.5
100.0
100.0
表6暗示,对当地商场不熟悉会影响居民在该地的居住时间,这显然是不合理的。
但是,居住时间与对百货商场的熟悉程度之间的联系可能受第三变量的影响,例如年龄。
居住时间越长的人可能年龄越大。
尽管分析结果表明年龄在此不是影响因素,但由此可见需要检查第三因素的影响。
三、三变量的交叉列联表分析
引入第三变量后再进行交叉列联分析,则可能出现以下四种结果:
(1)剔除外部环境的影响,使原先两变量间的关系更单纯。
例如,在表7中,仅分析婚姻状况和衣服支出水平这两个变量时,从数字上看未婚者在衣服支出方面比已婚者更高一些。
但引入变量性别以后,发现对于男性来说,已婚者与未婚者在衣服支出方面没有显著差异,但对于女性未婚者与已婚者,在衣服支出方面的差异则很明显。
见表8。
表7婚姻状况对衣服支出水平的交叉列联分析(%)
衣服支出水平
婚姻状况
已婚
未婚
高
低
31%
69%
52%
48%
合计
100%
100%
个案数
700
300
表8婚姻状况和性别对衣服支出水平的交叉列联分析(%)
衣服支出水平
性别
男
女
婚姻状况
婚姻状况
已婚
未婚
已婚
未婚
高
低
35%
65%
40%
60%
25%
75%
60%
40%
合计
100%
100%
100%
100%
个案数
400
120
300
180
(2)否定原先两变量间的关系。
例如,根据表9可见,仅对受教育水平和私家车
的拥有情况进行交叉列联分析,发现文化程度越高的人拥有私家车的比例越高。
但引入收
人变量后发现收入才是影响拥有私家车的真正原因,对于低收入者,不论文化程度高低在
购买私家车方面没有差异。
见表10。
表9受教育水平对私家车拥有状况的交叉列联分析(%)
私家车
受教育水平
本科及以上
本科以下
有
没有
32%
68%
21%
79%
合计
100%
100%
个案数
250
750
表10受教育水平和收入对私家车拥有状况的交叉列联分析(%)
私家车
收入
低
高
受教育水平
受教育水平
本科及以上
本科以下
本科及以上
本科以下
有
没有
20%
80%
20%
80%
40%
60%
40%
60%
合计
100%
100%
100%
100%
个案数
100
700
150
50
(3)尽管原先观察两变量间没有关系,第三变量的引入可能揭示了它们之间的一些联系。
由表11可见,仅对年龄和出国旅行的欲望进行交叉列联分析,发现两者之间没有关系。
但引入性别变量后,发现对于男性,年龄越大,出国旅游的欲望越强;而对于女性正好相反,年龄越小,出国欲望越强。
见表12。
表11年龄对是否希望出国旅行的交叉列联分析(%)
是否希望出国旅行
年龄
45岁以下
45岁及以上
是
不是
50%
50%
50%
50%
合计
100%
100%
个案数
500
500
表12年龄和性别对是否希望出国旅行的交叉列联分析(%)
是否希望
出国旅行
性别
男
女
年龄
年龄
45岁以下
45岁及以上
45岁以下
45岁及以上
是
不是
40%
60%
60%
40%
65%
35%
35%
65%
合计
100%
100%
100%
100%
个案数
300
300
200
200
(4)没有影响。
以表13为例,引入收入变量后,家庭规模与是否经常吃快餐之间仍旧没有关系。
见表14。
表13家庭规模对是否经常吃快餐的交叉列联分析(%)
是否经常吃快餐
家庭规模
小
大
是
不是
65%
35%
65%
35%
合计
100%
100%
个案数
500
500
表14家庭收入和家庭规模对是否经常吃快餐的交叉列联分析(%)
是否经常吃快餐
收入
低
高
家庭规模
家庭规模
小
大
小
大
是
不是
65%
35%
65%
35%
65%
35%
65%
35%
合计
100%
100%
100%
100%
个案数
500
500
500
500
四、交叉表分析法的优缺点
交叉表被广泛用于商业市场调研,因为它有如下优点:
●交叉表的分析结果很容易直观地被理解;
●明了的解释加强了调研结果与经理行为的联系;
●一系列交叉表比多变量分析更有助于理解复杂的问题;
●交叉表可减弱空格问题,这在多元离散变量分析中更突出;
●交叉表将复杂的数据简单化。
交叉表有两点局限。
其一,如果需要考虑多个变量,样本容量就应相当大;其二,很难确保对所有的相关变量进行了分析,如果变量选择不适当,就会得出错误的结论。
即使变量选择的正确,研究者也许会因使用不当而无法找到真正的关系。
能否制作一个好的交叉表,取决于研究者选择关键变量以及根据这些变量组成交叉表的能力。
另外,用于交叉表分析的变量的类型和数量随研究的目的、性质而变化。
在描述性调研中,研究者有较大的自主权来选择这些变量。
在探索性研究中,研究者凭主观意识选择所有的用于交叉表的变量。
交叉表分析只能用于有数据基础的变量分析,它描述的是变量间的关系,但不一定是因果关系。