12 独立性检验的基本思想及其初步应用 学案人教A版选修12 1.docx
《12 独立性检验的基本思想及其初步应用 学案人教A版选修12 1.docx》由会员分享,可在线阅读,更多相关《12 独立性检验的基本思想及其初步应用 学案人教A版选修12 1.docx(18页珍藏版)》请在冰豆网上搜索。
12独立性检验的基本思想及其初步应用学案人教A版选修121
1.2独立性检验的基本思想及其初步应用
课标解读
1.了解独立性检验的基本思想、方法及其简单应用.(重点)
2.通过收集数据,并依据独立性检验的原理作出合理推断,培养学生良好的思维习惯.(难点)
分类变量与列联表
【问题导思】
吸烟变量有几种类别?
国籍变量呢?
【提示】 吸烟变量有吸烟与不吸烟两种类别,而国籍变量则有多种类别,如中国、美国、法国…….
1.分类变量
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
2.列联表
(1)定义:
列出的两个分类变量的频数表,称为列联表.
(2)2×2列联表:
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
2×2列联表
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
等高条形图
【问题导思】
表格和图形哪一个更能直观地反映出两个分类变量间是否相互影响?
【提示】 图形.
(1)定义:
将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高条形图.
(2)特征:
等高条形图与表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.
(3)用法:
观察等高条形图发现
和
相差很大,就判断两个分类变量之间有关系.
独立性检验
(1)定义:
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
(2)公式:
K2=
,其中n=a+b+c+d为样本容量.
用2×2列联表分析两变量间的关系
在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并利用
与
判断二者是否有关系.
【思路探究】 对变量进行分类→求出分类变量的不同取值→作出2×2列联表→计算
与
的值作出判断
【自主解答】 2×2列联表如下:
年龄在六
十岁以上
年龄在六
十岁以下
总计
饮食以蔬菜为主
43
21
64
饮食以肉类为主
27
33
60
总计
70
54
124
将表中数据代入公式得
=
=0.671875.
=
=0.45.
显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与年龄有关系.
1.作2×2列联表时,注意应该是4行4列,计算时要准确无误.
2.作2×2列联表时,关键是对涉及的变量分清类别.
题中条件不变,尝试用|ad-bc|的大小判断饮食习惯与年龄是否有关.
【解】 将本例2×2列联表中的数据代入可得
|ad-bc|=|43×33-21×27|=852.
相差较大,可在某种程度上认为饮食习惯与年龄有关系.
用等高条形图分析两变量间的关系
某学校对高三学生作了一项调查,发现:
在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张.作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.
【思路探究】 作出2×2列联表―→根据列联表数据
作等高条形图―→对比乘积的差距判断两
个分类变量是否有关
【自主解答】 作列联表如下:
性格内向
性格外向
总计
考前心情紧张
332
213
545
考前心情不紧张
94
381
475
总计
426
594
1020
相应的等高条形图如图所示:
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例.从图中可以看出,考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关.
1.利用列联表中数据计算出各类变量取值对应频率,作出等宽度且高度均为1的等高条形图.
2.利用数形结合的思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法之一.一般地,在等高条形图中,
与
相差越大,两个分类变量有关系的可能性就越大.作等高条形图时可以用列联表来寻找相关数据,作图要精确,且易于观察,使对结论的判断不出现偏差.
某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件.试利用图形判断监督员甲在不在生产现场对产品质量好坏有无影响.
【解】 根据题目所给数据得如下2×2列联表:
合格品数
次品数
总计
甲在生产现场
982
8
990
甲不在生产现场
493
17
510
总计
1475
25
1500
相应的等高条形图如图所示.
图中两个深色条的高分别表示甲在生产现场和甲不在生产现场样本中次品数的频率.从图中可以看出,甲不在生产现场样本中次品数的频率明显高于甲在生产现场样本中次品数的频率.因此可以认为质量监督员甲在不在生产现场与产品质量好坏有关系.
独立性检验
下表是某地区的一种传染病与饮用水的调查表:
得病
不得病
总计
干净水
52
466
518
不干净水
94
218
312
总计
146
684
830
(1)这种传染病是否与饮用水的卫生程度有关,请说明理由;
(2)若饮用干净水得病的有5人,不得病的有50人,饮用不干净水得病的有9人,不得病的有22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.
【思路探究】 求出k2的值―→与临界值作比较―→作出判断.
【自主解答】
(1)假设H0:
传染病与饮用水无关.把表中数据代入公式得:
K2的观测值k=
≈54.21.
在H0成立的情况下,P(K2>10.828)≈0.001,是小概率事件,
所以拒绝H0.
因此我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关.
(2)依题意得2×2列联表:
得病
不得病
总计
干净水
5
50
55
不干净水
9
22
31
总计
14
72
86
此时,K2的观测值k=
≈5.785.
因为5.785>5.024,P(K2>5.024)≈0.025,
所以我们有97.5%的把握认为该种疾病与饮用不干净水有关.
两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但
(1)中我们有99.9%的把握肯定结论的正确性,
(2)中我们只有97.5%的把握肯定.
解决一般的独立性检验问题的步骤:
(1)通过列联表确定a、b、c、d、n的值,根据实际问题需要的可信程度确定临界值k0;
(2)利用K2=
求出K2的观测值k;
(3)如果k≥k0,就推断“两个分类变量有关系”,这种推断犯错误的概率不超过α;否则就认为在犯错误的概率不超过α的前提下不能推断“两个分类变量有关系”.
某社区医疗服务部门为了考察人的高血压病是否与食盐摄入量有关,对该社区的1633人进行了跟踪测查,得出以下数据:
患高血压
未患高血压
合计
喜欢较咸食物
34
220
254
喜欢清淡食物
26
1353
1379
合计
60
1573
1633
问能否判断在犯错误的概率不超过0.001的前提下,认为患高血压与食盐摄入量有关?
【解】 提出假设H0:
该社区患有高血压病与食盐的摄入量无关.
由公式计算K2的观测值为
k=
≈80.155.
因为80.155>10.828,
因此在犯错误的概率不超过0.001的前提下,我们认为该社区患有高血压病与食盐的摄入量有关.
因未理解P(K2≥k0)的含义而致误
某小学在对232名小学生调查中发现:
180名男生中有98名有多动症,另外82名没有多动症,52名女生中有2名有多动症,另外50名没有多动症,用独立性检验方法判断多动症与性别是否有关系?
【错解】 由题目数据列出如下列联表:
多动症
无多动症
总计
男生
98
82
180
女生
2
50
52
总计
100
132
232
k=
≈42.117>10.828.
所以有0.1%的把握认为多动症与性别有关系.
【错因分析】 应该是有(1-P(K2≥10.828))×100%=(1-0.001)×100%的把握,而不是P(K2≥10.828)×100%=0.001×100%的把握.
【防范措施】 本题的错误之处在于不能正确理解独立性检验步骤的含义,当计算的K2的观测值k大于临界值k0时,就可推断在犯错误的概率不超过α的前提下说两分类变量有关系.这一点需牢记,才能避免类似错误.
【正解】 由题目数据列出如下列联表:
多动症
无多动症
总计
男生
98
82
180
女生
2
50
52
总计
100
132
232
由表中数据可得到:
k=
≈42.117>10.828.
所以有99.9%的把握认为多动症与性别有关系.
1.列联表与等高条形图
列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有关联关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有关联关系.
2.对独立性检验思想的理解
独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量K2的值,如果K2值很大,说明假设不合理.K2越大,两个分类变量有关系的可能性越大.
1.在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸烟与患肺癌有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的,下列说法中正确的是( )
A.100个吸烟者中至少有99人患有肺癌
B.1个人吸烟,那么这个人有99%的概率患有肺癌
C.在100个吸烟者中一定有患肺癌的人
D.在100个吸烟者中可能一个患肺癌的人也没有
【解析】 独立性检验的结果与实际问题有差异,即独立性检验的结论是一个数学统计量,它与实际问题中的确定性存在差异.
【答案】 D
2.(2013·威海高二检测)分类变量X和Y的列联表如下,则( )
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
A.ad-bc越小,说明X与Y的关系越弱
B.ad-bc越大,说明X与Y的关系越强
C.(ad-bc)2越大,说明X与Y的关系越强
D.(ad-bc)2越接近于0,说明X与Y的关系越强
【解析】 由K2的计算公式可知,(ad-bc)2越大,则K2越大,故相关关系越强.
【答案】 C
3.观察下列各图,其中两个分类变量x、y之间关系最强的是( )
【解析】 在四幅图中,D图中两个深色条的高相差最明显,说明两个分类变量之间关系最强.
【答案】 D
4.为了探究患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,调查结果如下表所示:
患慢性气管炎
未患慢性气管炎
合计
吸烟
43
162
205
不吸烟
13
121
134
合计
56
283
339
【解】 从题目的2×2列联表中可知:
a=43,b=162,c=13,d=121,a+b=205,c+d=134,a+c=56,b+d=283,n=a+b+c+d=339,代入公式:
K2=
,
得k=
≈7.469.
因为7.469>6.635,所以我们有99%的把握认为50岁以上的人患慢性气管炎与吸烟习惯有关系.
一、选择题
1.有两个分类变量X与Y的一组数据,由其列联表计算得k≈4.523,则认为“X与Y有关系”犯错误的概率为( )
A.95% B.90% C.5% D.10%
【解析】 P(K2≥3.841)≈0.05,而k≈4.523>3.841.这表明认为“X与Y有关系”是错误的可能性约为0.05,即认为“X与Y有关系”犯错误的概率为5%.
【答案】 C
2.(2013·大连高二检测)在一项中学生近视情况的调查中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( )
A.平均数与方差B.回归分析
C.独立性检验D.概率
【解析】 判断两个分类变量是否有关的最有效方法是进行独立性检验,故选C.
【答案】 C
3.利用独立性检验来考虑两个分类变量X和Y是否有关系时,通过查阅临界值表来确定推断“X与Y有关系”的可信度,如果k>5.024,那么就推断“X和Y有关系”,这种推断犯错误的概率不超过( )
A.0.25B.0.75
C.0.025D.0.975
【解析】 ∵P(k>5.024)=0.025,故在犯错误的概率不超过0.025的条件下,认为“X和Y有关系”.
【答案】 C
4.下面是调查某地区男女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图中可以看出( )
图1-2-1
A.性别与喜欢理科无关
B.女生中喜欢理科的比为80%
C.男生比女生喜欢理科的可能性大些
D.男生不喜欢理科的比为60%
【解析】 本题考查学生的识图能力,从图中可以分析,男生喜欢理科的可能性比女生大一些.
【答案】 C
5.在调查中发现480名男人中有38名患有色盲,520名女人中有6名患有色盲.下列说法正确的是( )
A.男、女患色盲的频率分别为0.038,0.006
B.男、女患色盲的概率分别为
,
C.男人中患色盲的比例比女人中患色盲的比例大,患色盲与性别是有关的
D.调查人数太少,不能说明色盲与性别有关
【解析】 男人中患色盲的比例为
,要比女人中患色盲的比例
大,其差值为|
-
|≈0.0676,差值较大.
【答案】 C
二、填空题
6.某班主任对全班50名学生作了一次调查,所得数据如表:
认为作业多
认为作业不多
总计
喜欢玩电脑游戏
18
9
27
不喜欢玩电脑游戏
8
15
23
总计
26
24
50
由表中数据计算得到K2的观测值k≈5.059,于是________(填“能”或“不能”)在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.
【解析】 查表知若要在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关,则临界值k0=6.635.本题中,k≈5.059<6.635,所以不能在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.
【答案】 不能
7.独立性检验所采用的思路是:
要研究A,B两类型变量彼此相关,首先假设这两类变量彼此________.在此假设下构造随机变量K2,如果K2的观测值较大,那么在一定程度上说明假设________.
【答案】 无关 不成立
8.某高校《统计初步》课程的教师随机调查了选该课的一些学生的情况,具体数据如下表:
专业
性别
非统计专业
统计专业
男生
13
10
女生
7
20
为了检验主修统计专业是否与性别有关系,根据表中的数据得到随机变量K2的观测值为k=
≈4.844.因为k>3.841,所以确认“主修统计专业与性别有关系”,这种判断出现错误的可能性为________.
【解析】 因为随机变量K2的观测值k>3.841,所以在犯错误的概率不超过0.05的前提下认为“主修统计专业与性别有关系”.故这种判断出现错误的可能性为5%.
【答案】 5%
三、解答题
9.为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:
理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.试分析学生选报文、理科与对外语的兴趣是否有关?
【解】 列出2×2列联表
理
文
总计
有兴趣
138
73
211
无兴趣
98
52
150
总计
236
125
361
代入公式得K2的观测值
k=
≈1.871×10-4.
∵1.871×10-4<2.706,
∴可以认为学生选报文、理科与对外语的兴趣无关.
10.某校对学生课外活动进行调查,结果整理成下表:
运用你所学过的知识进行分析,能否在犯错误的概率不超过0.005的前提下,认为“喜欢体育还是文娱与性别有关系”?
体育
文娱
合计
男生
21
23
44
女生
6
29
35
合计
27
52
79
【解】 其等高条形图如图所示.
由图可以直观地看出喜欢体育还是喜欢文娱与性别在某种程度上有关系,但只能作粗略判断,具体判断方法如下:
假设“喜欢体育还是喜欢文娱与性别没有关系”,
∵a=21,b=23,c=6,d=29,n=79,
∴K2的观测值为
k=
≈8.106.
且P(K2≥7.879)≈0.005,即我们得到的K2的观测值k≈8.106超过7.879,这就意味着:
“喜欢体育还是文娱与性别没有关系”这一结论成立的可能性小于0.005,即在犯错误的概率不超过0.005的前提下认为“喜欢体育还是喜欢文娱与性别有关”.
11.某企业有两个分厂生产某种零件,按规定内径尺寸(单位:
mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:
甲厂:
分组
[29.86,
29.90)
[29.90,
29.94)
[29.94,
29.98)
[29.98,
30.02)
[30.02,
30.06)
[30.06,
30.10)
[30.10,
30.14)
频数
12
63
86
182
92
61
4
乙厂:
分组
[29.86,
29.90)
[29.90,
29.94)
[29.94,
29.98)
[29.98,
30.02)
[30.02,
30.06)
[30.06,
30.10)
[30.10,
30.14)
频数
29
71
85
159
76
62
18
(1)试分别估计两个分厂生产零件的优质品率;
(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.
甲厂
乙厂
合计
优质品
非优质品
合计
附:
K2=
P(K2≥k)
0.05
0.01
k
3.841
6.635
【解】
(1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为
=72%;
乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为
=64%.
(2)
甲厂
乙厂
合计
优质品
360
320
680
非优质品
140
180
320
合计
500
500
1000
k=
≈7.353>6.635,
因此,在犯错误的概率不超过0.01的前提下,即有99%的把握认为“两个分厂生产的零件的质量有差异”.