独立性检验的基本思想及其初步应用Word文档格式.docx
《独立性检验的基本思想及其初步应用Word文档格式.docx》由会员分享,可在线阅读,更多相关《独立性检验的基本思想及其初步应用Word文档格式.docx(21页珍藏版)》请在冰豆网上搜索。
要确认“两个分类变量有关系”
在A不成立的前提下进行推理
假设该结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下计算K2
判断正误(正确的打“√”,错误的打“×
”)
(1)列联表中的数据是两个分类变量的频数.()
(2)对事件A与B的独立性检验无关,即两个事件互不影响.()
(3)K2的大小是判断事件A与B是否相关的统计量.()
答案:
(1)√
(2)×
(3)√
某校为了检验高中数学新课程改革的成果,在两个班进行教学方式对比试验,两个月后进行了一次检测,试验班与对照班成绩统计如2×
2列联表所示(单位:
人),则其中m=________,n=________.
80分及80分以上
80分以下
试验班
32
18
50
对照班
24
m
56
44
n
26 100
若两个分类变量X和Y的2×
2列联表为:
5
15
40
10
则X与Y之间有关系的可信度为________.
解析:
K2的观测值k≈18.8>
10.828.
故有99.9%的把握认为X与Y有关系.
99.9%
探究点1等高条形图的应用
为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:
组别
阳性数
阴性数
铅中毒病人
29
7
36
对照组
9
28
37
38
35
73
试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?
【解】 等高条形图如图所示:
其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.
由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.
(1)判断两个分类变量是否有关系的两种常用方法
①利用数形结合思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法.
②一般地,在等高条形图中,
与
相差越大,两个分类变量有关系的可能性就越大.
(2)利用等高条形图判断两个分类变量是否相关的步骤
研究人员选取170名青年男女大学生,对他们进行一种心理测验.发现60名女生对该心理测验中的最后一个题目的反应是:
作肯定的有18名,否定的有42名.110名男生在相同的题目上作肯定的有22名,否定的有88名.试判断性别与态度之间是否有关系.
解:
根据题目所给数据建立如下列联表:
肯定
否定
女生
42
60
男生
22
88
110
130
170
相应的等高条形图如图所示.
比较来看,女生中肯定的人数比要高于男生中肯定的人数比,因此可以在某种程度上认为性别与态度之间有关.
探究点2 独立性检验
某新闻媒体为了了解观众对央视《开门大吉》节目的喜爱与性别是否有关系,随机调查了观看该节目的观众110名,得到如下的列联表:
女
男
喜爱
20
不喜爱
30
试根据样本估计总体的思想,估计约有多大的把握认为“喜爱该节目与否和性别有关”,并说明理由.
参考附表:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
(参考公式:
K2=
,其中n=a+b+c+d)
【解】 假设喜爱《开门大吉》节目与否和性别无关.
K2的观测值k=
≈7.8>
6.635,P(K2≥6.635)≈0.01,
所以有99%以上的把握认为“喜爱《开门大吉》节目与否和性别有关”.
解决独立性检验问题的基本步骤
(1)根据已知的数据作出列联表.
(2)作出相应的等高条形图,可以利用图形做出相应判断.
(3)求K2的观测值.
(4)判断可能性:
与临界值比较,得出事件有关的可能性大小.
为了研究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高一在校生,调查结果如下:
理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.试分析学生选报文、理科与对外语的兴趣是否有关?
问题是判断学生选报文、理科是否与对外语的兴趣有关.列出2×
2列联表如下:
理
文
有兴趣
138
211
无兴趣
98
52
150
236
125
361
由公式得K2的观测值k=
≈1.871×
10-4.
因为1.871×
10-4<
2.706,故可以认为学生选报文、理科与对外语的兴趣无关.
探究点3 独立性检验的综合应用
(2017·
高考全国卷Ⅱ节选)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:
kg),其频率分布直方图如下:
(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50kg,新养殖法的箱产量不低于50kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:
箱产量<50kg
箱产量≥50kg
旧养殖法
新养殖法
附:
.
【解】
(1)记B表示事件“旧养殖法的箱产量低于50kg”,C表示事件“新养殖法的箱产量不低于50kg”.
由题意知P(A)=P(BC)=P(B)P(C).
旧养殖法的箱产量低于50kg的频率为
(0.012+0.014+0.024+0.034+0.040)×
5=0.62,
故P(B)的估计值为0.62.
新养殖法的箱产量不低于50kg的频率为
(0.068+0.046+0.010+0.008)×
5=0.66,
故P(C)的估计值为0.66.
因此,事件A的概率估计值为0.62×
0.66=0.4092.
(2)根据箱产量的频率分布直方图得列联表
箱产量<
50kg
62
34
66
≈15.705.
由于15.705>
6.635,故有99%的把握认为箱产量与养殖方法有关
.
两个分类变量相关关系的判断
(1)等高条形图法:
在等高条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例
,也可以估计满足条件X=x2的个体中具有Y=y1的个体所占的比例
.两个比例的值相差越大,X与Y有关系成立的可能性就越大.
(2)观测值法:
通过2×
2列联表,先计算K2的观测值k,然后借助k的含义判断“两个分类变量有关系”这一结论成立的可信程度.
某市教育局邀请教育专家深入该市多所中小学,开展听课、访谈及随堂检测等活动,他们把收集到的180节课分为三类课堂教学模式,教师主讲的为A模式,少数学生参与的为B模式,多数学生参与的为C模式,A,B,C三类课的节数比例为3∶2∶1.
(1)为便于研究分析,教育专家将A模式称为传统课堂模式,B,C统称为新课堂模式,根据随堂检测结果,把课堂教学效率分为高效和非高效,根据检测结果统计得到如下2×
2列联表(单位:
节)
高效
非高效
新课堂模式
90
传统课堂模式
100
80
180
请根据统计数据回答:
能否在犯错误的概率不超过0.01的前提下认为课堂教学效率与教学模式有关?
并说明理由.
(2)教育专家采用分层抽样的方法从收集到的180节课中选出12节课作为样本进行研究,并从样本中的B模式和C模式课堂中随机抽取2节课,求至少有一节课为C模式课堂的概率.
参考临界值有:
P(K2≥k0)
0.10
0.05
0.025
0.005
k0
2.706
5.024
7.879
参考公式:
其中n=a+b+c+d.
(1)由列联表中的统计数据计算随机变量K2的观测值k=
=9>6.635,
由临界值表P(K2≥6.635)≈0.010,
所以在犯错误的概率不超过0.01的前提下可以认为课堂效率与教学模式有关.
(2)样本中的B模式课堂和C模式课堂分别是4节和2节.
从中任取两节有C
=15种取法,其中至少有一节课为C模式课堂取法有C
-C
=9种,
所以至少有一节课为C模式课堂的概率为
=
1.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是()
A.k越大,“X与Y有关系”的可信程度越小
B.k越小,“X与Y有关系”的可信程度越小
C.k越接近于0,“X与Y没有关系”的可信程度越小
D.k越大,“X与Y没有关系”的可信程度越大
选B.k越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大;
k越小,“X与Y有关系”的可信程度越小.
2.下面是调查某地区男女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图中可以看出()
A.性别与喜欢理科无关
B.女生中喜欢理科的比为80%
C.男生比女生喜欢理科的可能性大些
D.男生不喜欢理科的比为60%
选C.由图知女生中喜欢理科的比为20%,男生不喜欢理科的比为40%,故B、D不正确.由图知,男生比女生喜欢理科的可能性大些.
3.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据.
总成绩好
总成绩不好
数学成绩好
478
490
数学成绩不好
399
423
913
(1)计算a,b,c的值;
(2)文科学生总成绩不好与数学成绩不好有关系吗?
(1)由478+a=490,得a=12.
由a+24=c,得c=12+24=36.
由b+c=913,得b=913-36=877.
(2)计算随机变量K2的观测值
k=
≈6.233>5.024,
因为P(K2≥5.024)≈0.025,
所以在犯错误的概率不超过0.025的前提下,认为文科学生总成绩不好与数学成绩不好有关系.
知识结构
深化拓展
1.独立性检验基本思想的理解
(1)“P(K2≥6.635)≈0.01”成立的前提是H0成立.
(2)P(K2≥6.635)近似为0.01,当样本容量n越大时,其近似程度越大.
(3)K2与k的关系并不是k=
,K2是一个随机变量,在a,b,c,d取不同的值时,K2可能不同,而k是取定一组数a,b,c,d后的一个值.
2.假设检验与反证法的关系
提出假设H0
在A不成立的前提下进行
在H0成立的条件下进行推理
推出矛盾,意味着结论A成立
推出有利于H0成立的小概率事件发生,意味着H0成立的可能性小
没有找到矛盾,不能对A下任何结论,即反证法不成立
推出有利于H0成立的小概率事件不发生,接受原假设
[A基础达标]
1.观察下列各图,其中两个分类变量x,y之间关系最强的是()
选D.在四幅图中,D图中两个深色条高相差最明显,说明两个分类变量之间关系最强.
2.经过对K2的统计量的研究,得到了若干个临界值,当K2≤2.706时,我们认为事件A与B()
A.有95%的把握认为A与B有关系B.有99%的把握认为A与B有关系
C.没有充分理由说明事件A与B有关系D.不能确定
选C.当K2>
2.706时,有90%以上的把握说明A与B有关系,但当K2≤2.706时,只能说明A与B是否有关系的理由不够充分,故选C.
3.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:
作文成绩优秀
作文成绩一般
课外阅读量较大
课外阅读量一般
8
由以上数据,计算得到K2的观测值k≈9.643,根据临界值表,以下说法正确的是( )
A.没有充足的理由认为课外阅读量大与作文成绩优秀有关
B.有0.5%的把握认为课外阅读量大与作文成绩优秀有关
C.在犯错误的概率不超过0.001的前提下认为课外阅读量大与作文成绩优秀有关
D.在犯错误的概率不超过0.005的前提下认为课外阅读量大与作文成绩优秀有关
选D.根据临界值表,9.643>7.879,在犯错误的概率不超过0.005的前提下,认为课外阅读量大与作文成绩优秀有关.
4.某班主任对全班50名学生进行了作业量的评价调查,所得数据如下表所示:
认为作业量大
认为作业量不大
27
23
26
则认为作业量的大小与学生的性别有关的犯错误的概率不超过()
A.0.01B.0.025C.0.10D.无充分证据
选B.因为K2的观测值为k=
≈5.059>5.024,所以认为作业量的大小与学生的性别有关的犯错误的概率不超过0.025.
5.独立性检验所采用的思路是:
要研究X,Y两个分类变量彼此相关,首先假设这两个分类变量彼此________,在此假设下构造随机变量K2.如果K2的观测值较大,那么在一定程度上说明假设________.
独立性检验的前提是假设两个分类变量无关系,然后通过随机变量K2的观测值来判断假设是否成立.
无关系 不成立
6.在吸烟与患肺病是否相关的判断中,有下面的说法:
①若K2的观测值k>6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;
②从独立性检验可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;
③从独立性检验可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.
其中说法正确的是________.
K2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;
说法②中对“确定容许推断犯错误概率的上界”理解错误;
说法③正确.
③
7.为研究某新药的疗效,给100名患者服用此药,跟踪调查后得下表中的数据:
无效
有效
男性患者
女性患者
6
21
79
设H0:
服用此药的效果与患者的性别无关,则K2的观测值k≈________,从而得出结论:
服用此药的效果与患者的性别有关,这种判断出错的可能性为________.
由公式计算得K2的观测值k≈4.882.
因为k>
3.841,所以我们有95%的把握认为服用此药的效果与患者的性别有关,从而出错的可能性为5%.
4.882 5%
8.在调查的480名男性中有38名患有色盲,520名女性中有6名患有色盲,请列出2×
2列联表,并估计色盲与性别是否有关系.
性别与色盲列联表
色盲
不色盲
合计
442
480
514
520
956
1000
因为在调查的480名男性中,色盲占
在调查的520名女性中,色盲占
>
,且两个比例的值相差较大,
故估计色盲与性别有关系.
9.某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩的平均分(采用百分制),剔除平均分在30分以下的学生后,共有男生300名,女生200名.现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生成绩分为6组,得到如下所示频数分布表.
分数段
[40,50)
[50,60)
[60,70)
[70,80)
[80,90)
[90,100]
3
4
13
2
(1)估计男、女生各自的平均分(同一组数据用该组区间中点值作代表),从计算结果看,数学成绩与性别是否有关;
(2)规定80分以上为优秀(含80分),请你根据已知条件作出2×
2列联表,并判断是否在犯错误的概率不超过0.1的前提下认为数学成绩与性别有关.
优秀
非优秀
(1)x男=45×
0.05+55×
0.15+65×
0.3+75×
0.25+85×
0.1+95×
0.15=71.5,
x女=45×
0.15+55×
0.1+65×
0.125+75×
0.325+95×
0.05=71.5,
因为x男=x女,所以从男、女生各自的平均分来看,并不能判断数学成绩与性别是否有关.
(2)由频数分布表可知,在抽取的100名学生中,“男生组”中数学成绩优秀的有15人,“女生组”中数学成绩优秀的有15人,据此可得2×
45
25
70
可得K2的观测值为
≈1.79,
因为1.79<2.706,所以在犯错误的概率不超0.1的前提下不能认为数学成绩与性别有关.
[B 能力提升]
10.某校高三年级在一次全年级的大型考试中,数学成绩优秀和非优秀的学生中,物理、化学、总成绩优秀的人数如下表所示,能否在犯错误的概率不超过0.001的前提下认为数学成绩优秀与物理、化学、总成绩优秀有关系?
物理优秀
化学优秀
总成绩优秀
数学优秀
228
225
267
数学非优秀
143
156
99
注:
该年级在此次考试中数学成绩优秀的有360人,非优秀的有880人.
列出数学成绩与物理成绩的2×
物理非优秀
132
360
737
880
371
869
1240
将表中数据代入公式,得K
的观测值为
k1=
≈270.1>
列出数学成绩与化学成绩的2×
化学非优秀
135
724
381
859
k2=
≈240.6>
列出数学成绩与总成绩的2×
总成绩非优秀
93
781
366
874
k3=
≈486.1>
由上面的分析知,K2的观测值都大于10.828,说明在犯错误的概率不超过0.001的前提下认为数学成绩优秀与物理、化学、总成绩优秀都有关系.
11.(选做题)2018年春节,“抢红包”成为社会热议的话题之一.某机构对春节期间用户利用手机“抢红包”的情况进行调查,如果一天内抢红包的总次数超过10次为“关注点高”,否则为“关注点低”,调查情况如下表所示:
关注点高
关注点低
男性用户
女性用户
16
(1)把上表补充完整,并判断能否在犯错误的概率不超过0.05的前提下认为性别与关注点高低有关?
(2)现要从上述男性用户中随机选出3名参加一项活动,以X表示选中的同学中抢红包总次数超过10次的人数,求随机变量X的分布列及数学期望E(X).
下面的临界值表供参考:
0.15
2.072
独立性检验统计量K2=
,其中n=a+b+c+d.
(1)根据题意得2×
1
K2的观测值为k=
≈4.27>
3.841.
所以,在犯错误的概率不超过0.05的前提下认为性别与关注点高低有关.
(2)随机变量X的所有可能取值为0,1,2,3.
P(X=0)=
,P(X=1)=
P(X=2