独立性检验的基本思想和初步应用.docx
《独立性检验的基本思想和初步应用.docx》由会员分享,可在线阅读,更多相关《独立性检验的基本思想和初步应用.docx(20页珍藏版)》请在冰豆网上搜索。
独立性检验的基本思想和初步应用
[学习目标] 1.了解独立性检验的基本思想、方法及其简单应用.2.理解判断两个分类变量是否有关系的常用方法、独立性检验中K2的含义及其实施步骤.
知识点一 两个分类变量之间关联关系的定性分析
1.分类变量
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.这里的“变量”和“值”都应作为“广义”的变量和值进行理解,它们取的不一定是具体的数值.
2.列联表
列出的两个分类变量的频数表,称为列联表.
假设两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(也称为2×2列联表)为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
3.两个分类变量之间关联关系的定性分析的方法
(1)频率分析法:
通过对样本的每个分类变量的不同类别事件发生的频率大小进行比较来分析分类变量之间是否有关联关系.通常通过列联表列出两个分类变量的频数表来进行分析.
(2)图形分析法:
与表格相比,图形更能直观地反映出两个分类变量间是否互相影响,常用等高条形图展示列联表数据的频率特征.
知识点二 独立性检验
1.定义:
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
2.K2=,其中n=a+b+c+d.
3.独立性检验的具体做法
(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.
(2)利用公式计算随机变量K2的观测值k.
(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.
题型一 有关“相关的检验”
例1 某校对学生课外活动进行调查,结果整理成下表:
用你所学过的知识进行分析,能否在犯错误的概率不超过0.005的前提下,认为“喜欢体育还是文娱与性别有关系”?
体育
文娱
总计
男生
21
23
44
女生
6
29
35
总计
27
52
79
解 判断方法如下:
假设H0“喜欢体育还是喜欢文娱与性别没有关系”,若H0成立,则K2应该很小.
∵a=21,b=23,c=6,d=29,n=79,
∴K2=
=≈8.106.
且P(K2≥7.879)≈0.005即我们得到的K2的观测值k≈8.106超过7.879,这就意味着:
“喜欢体育还是文娱与性别没有关系”这一结论成立的可能性小于0.005,即在犯错误的概率不超过0.005的前提下认为“喜欢体育还是喜欢文娱与性别有关”.
反思与感悟
(1)利用K2=求出K2的观测值k的值.再利用临界值的大小来判断假设是否成立.
(2)解题时应注意准确代数与计算,不可错用公式,准确进行比较与判断.
跟踪训练1 打鼾不仅影响别人休息,而且可能与患某种疾病有关.下表是一次调查所得的数据:
患心脏病
未患心脏病
总计
每一晚都打鼾
30
224
254
不打鼾
24
1355
1379
总计
54
1579
1633
根据独立性检验,能否在犯错误的概率不超过0.001的前提下认为每一晚都打鼾与患心脏病有关系?
解 由列联表中的数据,得K2的观测值
k=
≈68.033>10.828.
因此,在犯错误的概率不超过0.001的前提下,认为每一晚都打鼾与患心脏病有关系.
题型二 有关“无关的检验”
例2 为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:
理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.分析学生选报文、理科与对外语的兴趣是否有关?
解 列出2×2列联表
理
文
总计
有兴趣
138
73
211
无兴趣
98
52
150
总计
236
125
361
代入公式得K2的观测值
k=≈1.871×10-4.
∵1.871×10-4<2.706,∴可以认为学生选报文、理科与对外语的兴趣无关.
反思与感悟 运用独立性检验的方法:
(1)列出2×2列联表,根据公式计算K2的观测值k.
(2)比较k与k0的大小作出结论.
跟踪训练2 在一次恶劣天气的飞行航程中调查男女乘客在飞机上晕机的情况如下表所示,根据此资料是否能在犯错误的概率不超过0.05的前提下认为在恶劣天气飞行中男人比女人更容易晕机?
晕机
不晕机
总计
男人
24
31
55
女人
8
26
34
总计
32
57
89
解 根据列联表中的数据,可得K2的观测值为
k=≈3.689.
∵P(K2≥3.841)≈0.05,且3.689<3.841,
∴不能在犯错误的概率不超过0.05的前提下认为在恶劣天气飞行中男人比女人更容易晕机.
题型三 独立性检验的基本思想
例3 某高校共有学生15000人,其中男生10500人,女生4500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间(单位:
时)的样本数据.
(1)应收集多少位女生的样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图),其中样本数据的分组区间为[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率.
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否认为“该校学生的每周平均体育运动时间与性别有关”.
附:
P(K2≥k0)
0.100
0.050
0.010
0.005
k0
2.706
3.841
6.635
7.879
K2=.
解
(1)由分层抽样可得300×=90,所以应收集90位女生的样本数据.
(2)由频率分布直方图得学生每周平均体育运动超过4小时的频率为1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.
(3)由
(2)知,300位学生中有300×0.75=225(人)的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.样本数据中有210份是关于男生的,90份是关于女生的,可得每周平均体育运动时间与性别列联表:
男生
女生
总计
每周平均体育运动时间不超过4小时
45
30
75
每周平均体育运动时间超过4小时
165
60
225
总计
210
90
300
结合列联表可算得K2的观测值
k=≈4.762>3.841.
所以有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
反思与感悟
(1)解答此类题目的关键在于正确利用K2=计算k的值,再用它与临界值k0的大小作比较来判断假设检验是否成立,从而使问题得到解决.
(2)此类题目规律性强,解题比较格式化,填表计算分析比较即可,要熟悉其计算流程,不难理解掌握.
跟踪训练3 某校高三年级在一次全年级的大型考试中,数学成绩优秀和非优秀的学生中,物理、化学、总分成绩优秀的人数如下表所示,能否在犯错误的概率不超过0.001的前提下认为数学成绩优秀与物理、化学、总分成绩优秀有关系?
物理优秀
化学优秀
总分优秀
数学优秀
228
225
267
数学非优秀
143
156
99
注:
该年级在此次考试中数学成绩优秀的有360人,非优秀的有880人.
解 列出数学成绩与物理成绩的2×2列联表如下:
物理优秀
物理非优秀
合计
数学优秀
228
132
360
数学非优秀
143
737
880
合计
371
869
1240
将表中数据代入公式,得K的观测值为
k1=≈270.1>10.828.
列出数学成绩与化学成绩的2×2列联表如下:
化学优秀
化学非优秀
合计
数学优秀
225
135
360
数学非优秀
156
724
880
合计
381
859
1240
将表中数据代入公式,得K的观测值为
k2=≈240.6>10.828.
列出数学成绩与总分成绩的2×2列联表如下:
总分优秀
总分非优秀
合计
数学优秀
267
93
360
数学非优秀
99
781
880
合计
366
874
1240
将表中数据代入公式,得K的观测值为
k3=≈486.1>10.828.
由上面的分析知,K2的观测值都大于10.828,说明在犯错误的概率不超过0.001的前提下认为数学成绩优秀与物理、化学、总分成绩优秀都有关系.
求K2时用错公式致误
例4 在109个人身上试验某种药物预防感冒的作用,得到如下列联表:
感冒
未感冒
总计
服用药
11
46
57
未服用药
21
31
52
总计
32
77
109
则有多大把握认为该药有效?
错解 k=≈0.3138<0.455,
∴在犯错误的概率不超过0.5的前提下不能认为该药有效.
错因分析 K2=,
而错解中误将(ad-bc)2写成(ab-cd)2.
正解 k=≈5.8300>5.024,
∴在犯错误的概率不超过0.025的前提下认为该药物有效.
点评 要理解公式的推导过程,掌握公式中每个量的意义,抓住公式的特征,就会避免用错公式.
1.观察下列各图,其中两个分类变量x,y之间关系最强的是( )
答案 D
解析 观察等高条形图发现和相差越大,就判断两个分类变量之量关系越强.
2.下面是一个2×2列联表:
y1
y2
总计
x1
a
21
73
x2
8
25
33
总计
b
46
106
则表中a,b处的值分别为( )
A.94,96B.52,50
C.52,60D.54,52
答案 C
解析 ∵a+21=73,∴a=52,b=a+8=52+8=60.
3.某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下2×2列联表:
偏爱蔬菜
偏爱肉类
总计
50岁以下
4
8
12
50岁以上
16
2
18
总计
20
10
30
则可以说其亲属的饮食习惯与年龄有关的把握为( )
A.90%B.95%
C.99%D.99.9%
答案 C
解析 因为K2的观测值k==10>6.635,所以有99%的把握认为其亲属的饮食习惯与年龄有关.
4.为了判断高中学生的文理科选修是否与性别有关系,随机调查了50名学生,得到如下2×2列联表:
理科
文科
男
13
10
女
7
20
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.
根据表中数据,得到K2的观测值k=≈4.844.可认为选修文科与性别有关系的可能性不低于________.
答案 95%
解析 ∵K2的观测值k≈4.844>3.841,且P(K2≥3.841)≈0.05,这表明在犯错误的概率不超过0.05的前提下认为选修文科与性别之间有关系,即选修文科与性别有关系的可能性不低于95%.
5.根据下表计算:
不看电视
看电视
男
37
85
女
35
143
K2的观测值k≈________(保留3位小数).
答案 4.514
解析 k=≈4.514.
1.列联表与等高条形图
列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有关联关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有关联关系.
2.对独立性检验思想的理解
独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量K2的值,如果K2值很大,说明假设不合理.K2越大,两个分类变量有关系的可能性越大.
一、选择题
1.对两个分类变量A,B的下列说法中正确的个数为( )
①A与B无关,即A与B互不影响;
②A与B关系越密切,则K2的值就越大;
③K2的大小是判定A与B是否相关的唯一依据
A.0B.1C.2D.3
答案 B
解析 ①正确,A与B无关即A与B相互独立;②不正确,K2的值的大小只是用来检验A与B是否相互独立;③不正确,例如借助三维柱形图、二维条形图等.故选B.
2.在等高条形图中,下列哪两个比值相差越大,要推断的论述成立的可能性就越大( )
A.与B.与
C.与D.与
答案 C
解析 由等高条形图可知与的值相差越大,|ad-bc|就越大,相关性就越强.
3.高二第二学期期中考试,按照甲、乙两个班学生的数学成绩优秀和及格统计人数后,得到如下列联表:
优秀
及格
总计
甲班
11
34
45
乙班
8
37
45
总计
19
71
90
则随机变量K2的观测值约为( )
A.0.600B.0.828
C.2.712D.6.004
答案 A
解析 根据列联表中的数据,可得随机变量K2的观测值k=≈0.600.故选A.
4.某研究型学习小组调查研究学生使用智能手机对学习的影响.部分统计数据如下表:
使用智能手机
不使用智能手机
合计
学习成绩优秀
4
8
12
学习成绩不优秀
16
2
18
合计
20
10
30
附表:
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
经计算K2=10,则下列选项正确的是( )
A.有99.5%的把握认为使用智能手机对学习有影响
B.有99.5%的把握认为使用智能手机对学习无影响
C.有99.9%的把握认为使用智能手机对学习有影响
D.有99.9%的把握认为使用智能手机对学习无影响
答案 A
解析 依题意,注意到7.879<K2<10.828,因此有99.5%的把握认为使用智能手机对学习有影响,选A.
5.考察棉花种子经过处理跟生病之间的关系得到下表数据:
种子处理
种子未处理
总计
得病
32
101
133
不得病
61
213
274
总计
93
314
407
根据以上数据,可得出( )
A.种子是否经过处理跟是否生病有关
B.种子是否经过处理跟是否生病无关
C.种子是否经过处理决定是否生病
D.以上都是错误的
答案 B
解析 由K2=≈0.164<2.706,即没有把握认为种子是否经过处理跟是否生病有关.
6.利用独立性检验来考察两个分类变量X和Y是否有关系时,通过查阅下表来确定“X与Y有关系”的可信程度.如果K2≥5.024,那么就有把握认为“X与Y有关系”的百分比为( )
P(K2≥k0)
0.50
0.40
0.25
0.15
0.10
k0
0.455
0.708
1.323
2.072
2.706
P(K2≥k0)
0.05
0.025
0.010
0.005
0.001
k0
3.841
5.024
6.635
7.879
10.828
A.25%B.75%
C.2.5%D.97.5%
答案 D
解析 k=5.024对应的0.025是“X和Y有关系”不可信的程度,因此两个分类变量有关系的可信程度约为97.5%.
7.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )
表1
成绩
性别
不及格
及格
总计
男
6
14
20
女
10
22
32
总计
16
36
52
表2
视力
性别
好
不好
总计
男
4
16
20
女
12
20
32
总计
16
36
52
表3
智商
性别
偏高
正常
总计
男
8
12
20
女
8
24
32
总计
16
36
52
表4
阅读量
性别
丰富
不丰富
总计
男
14
6
20
女
2
30
32
总计
16
36
52
A.成绩B.视力
C.智商D.阅读量
答案 D
解析 因为k1==,
k2==,
k3==,
k4==,
则有k4>k2>k3>k1,所以阅读量与性别有关联的可能性最大.
二、填空题
8.2013年6月11日,中国的“神舟十号”发射成功,由此许多人认为中国进入了航天强国之列,也有许多人持反对意见,为此进行了调查.在参加调查的3648名男性公民与3432名女性公民中,持反对意见的男性有1843人、女性有1672人,在运用这些数据说明中国“神十”发射成功是否与中国进入航天强国有关系时,用下列__________最具说服力.
①回归直线方程;②平均数与方差;③独立性检验.
答案 ③
解析 由于参加调查的公民按性别被分成两组,而且每一组又被分成两种情况:
认为有关与无关.故该资料取自完全随机统计,符合2×2列联表的要求,应用独立性检验最具说服力.
9.在一项打鼾与患心脏病的调查中,共调查了1671人,经过计算K2的观测值k≈27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的.(填“有关”或“无关)
答案 有关
解析 由K2观测值k≈27.63与临界值比较,我们有99.9%的把握说打鼾与患心脏病有关.
10.下表是关于男婴与女婴出生时间调查的列联表:
晚上
白天
总计
男婴
45
A
B
女婴
E
35
C
总计
98
D
180
那么,A=________,B=________,C=________,D=________,E=________.
答案 47 92 88 82 53
解析 由列联表知识得解得
11.在研究性别与吃零食这两个分类变量是否有关系时,下列说法中正确的是________.
①若K2的观测值k=6.635,则我们在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;
②由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,如果某人吃零食,那么此人是女性的可能性为99%;
③由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误.
答案 ③
解析 K2的观测值是支持确定有多大把握认为“两个分类变量吃零食与性别有关系”的随机变量值,所以由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误,故填③.
三、解答题
12.随着生活水平的提高,人们的休闲方式也发生了变化.某机构随机调查了n个人,其中男性占调查人数的.已知男性中有一半的人的休闲方式是运动,而女性中只有的人的休闲方式是运动.
(1)完成下列2×2列联表:
运动
非运动
总计
男生
女性
总计
n
(2)若在犯错误的概率不超过0.05的前提下,可认为“性别与休闲方式有关”,那么本次被调查的人数至少有多少?
(3)根据
(2)的结论,本次被调查的人中,至少有多少人的休闲方式是运动?
解
(1)补全2×2列联表如下:
运动
非运动
总计
男性
n
n
n
女性
n
n
n
总计
n
n
n
(2)若在犯错误的概率不超过0.05的前提下,可认为“性别与休闲方式有关”,则P(K2≥k0)=3.841.
由于K2的观测值k==,
故≥3.841,即n≥138.276.
又由n∈Z,故n≥140.
故若在犯错误的概率不超过0.05的前提下,可认为“性别与休闲方式有关”,那么本次被调查的至少有140人.
(3)根据
(2)的结论,本次被调查的人中,至少有×140=56(人)的休闲方式是运动.
13.某学校为了解该校高三年级学生在市一练考试的数学成绩情况,随机从该校高三文科与理科各抽取50名学生的数学成绩,作出频率分布直方图如图,规定考试成绩在[120,150]内为优秀.
(1)由以上频率分布直方图填写下列2×2列联表.若按是否优秀来判断,是否有99%的把握认为该校的文理科数学成绩有差异.
文科
理科
总计
优秀
非优秀
总计
50
50
100
(2)某高校派出2名教授对该校随机抽取的学生成绩中一练数学成绩在140分以上的学生进行自主招生面试,每位教授至少面试一人,每位学生只能被一位教授面
试.若甲教授面试的学生人数为ξ,求ξ的分布列和均值.
解
(1)由频率分布直方图知,该校文科学生中数学成绩优秀的人数为(0.010+0.004+0.002)×10×50=8,故非优秀人数为50-8=42.该校理科学生中数学成绩优秀的人数为(0.020+0.014+0.006)×10×50=20,故非优秀人数为50-20=30.
则2×2列联表如下:
文科
理科
总计
优秀
8
20
28
非优秀
42
30
72
总计
50
50
100
∴K2的观测值k=≈7.143>6.635,故有99%的把握认为该校文理科数学成绩有差异.
(2)由
(1)知,该校随机抽取的学生成绩中一练数学成绩在140分以上的学生为4人,ξ的可能取值为1,2,3.将4人分给两名教授每名教授至少1名学生的不同分法种数为A=14,则P(ξ=1)==,P(ξ=2)==,P(ξ=3)==.
∴ξ的分布列为
ξ
1
2
3
P
∴E(ξ)=1×+2×+3×=2.