高中数学 第三章 统计案例 32 独立性检验的基本思想及其初步应用学案 新人教A版选修23.docx
《高中数学 第三章 统计案例 32 独立性检验的基本思想及其初步应用学案 新人教A版选修23.docx》由会员分享,可在线阅读,更多相关《高中数学 第三章 统计案例 32 独立性检验的基本思想及其初步应用学案 新人教A版选修23.docx(17页珍藏版)》请在冰豆网上搜索。
高中数学第三章统计案例32独立性检验的基本思想及其初步应用学案新人教A版选修23
3.2 独立性检验的基本思想及其初步应用
[学习目标]
1.了解独立性检验的基本思想、方法及其简单应用;
2.理解判断两个分类变量是否有关系的常用方法、独立性检验中K2的含义及其实施步骤.
[知识链接]
1.举例说明什么是分类变量?
答 变量的不同“值”表示个体所属的不同类别的变量称为分类变量,分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别,如性别变量,只取男、女两个值,商品的等级变量只取一级、二级、三级等等.
2.什么是列联表?
怎样从列联表判断两个分类变量有无关系?
答 一般地,假设两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},列出两个变量的频数表,称为列联表(如下图)
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
|ad-bc|越小,说明两个分类变量x,y之间的关系越弱;
|ad-bc|越大,说明两个分类变量x,y之间的关系越强.
[预习导引]
1.分类变量和列联表
(1)分类变量:
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表
①定义:
列出的两个分类变量的频数表称为列联表.
②2×2列联表
一般地,假设两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(也称为2×2列联表)为下表.
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
2.等高条形图
(1)等高条形图与表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.
(2)观察等高条形图发现
和
相差很大,就判断两个分类变量之间有关系.
3.独立性检验
(1)定义:
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
(2)K2=
,其中n=a+b+c+d.
(3)独立性检验的具体做法
①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.
②利用公式计算随机变量K2的观测值k.
③如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.
要点一 有关“相关的检验”
例1 某校对学生课外活动进行调查,结果整理成下表:
用你所学过的知识进行分析,能否在犯错误的概率不超过0.005的前提下,认为“喜欢体育还是文娱与性别有关系”?
体育
文娱
总计
男生
21
23
44
女生
6
29
35
总计
27
52
79
解 判断方法如下:
假设H0“喜欢体育还是喜欢文娱与性别没有关系”,若H0成立,则K2应该很小.
∵a=21,b=23,c=6,d=29,n=79,
∴K2=
=
≈8.106.
且P(K2≥7.879)≈0.005即我们得到的K2的观测值k≈8.106超过7.879,这就意味着:
“喜欢体育还是文娱与性别没有关系”这一结论成立的可能性小于0.005,即在犯错误的概率不超过0.005的前提下认为“喜欢体育还是喜欢文娱与性别有关”.
规律方法
(1)利用K2=
求出K2的观测值k的值.再利用临界值的大小来判断假设是否成立.
(2)解题时应注意准确代数与计算,不可错用公式,准确进行比较与判断.
跟踪演练1 为研究学生的数学成绩与对学习数学的兴趣是否有关,对某年级学生作调查得到如下数据:
成绩优秀
成绩较差
总计
兴趣浓厚的
64
30
94
兴趣不浓厚的
22
73
95
总计
86
103
189
判断学生的数学成绩好坏与对学习数学的兴趣是否有关?
解 由公式得K2的观测值
k=
≈38.459.
∵38.459>10.828,∴有99.9%的把握说学生学习数学的兴趣与数学成绩是有关的.
要点二 有关“无关的检验”
例2 为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:
理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.分析学生选报文、理科与对外语的兴趣是否有关?
解 列出2×2列联表
理
文
总计
有兴趣
138
73
211
无兴趣
98
52
150
总计
236
125
361
代入公式得K2的观测值
k=
≈1.871×10-4.
∵1.871×10-4<2.706,∴可以认为学生选报文、理科与对外语的兴趣无关.
规律方法 运用独立性检验的方法:
(1)列出2×2列联表,根据公式计算K2的观测值k.
(2)比较k与k0的大小作出结论.
跟踪演练2 第16届亚运会于2010年11月12日至27日在中国广州进行,为了搞好接待工作,组委会招募了16名男志愿者和14名女志愿者,调查发现,男、女志愿者中分别有10人和6人喜爱运动,其余人不喜爱运动.
(1)根据以上数据完成以下2×2列联表:
喜爱运动
不喜爱运动
总计
男
10
16
女
6
14
总计
30
(2)根据列联表的独立性检验,能否在犯错误的概率不超过0.10的前提下认为性别与喜爱运动有关?
解
(1)
喜爱运动
不喜爱运动
总计
男
10
6
16
女
6
8
14
总计
16
14
30
(2)假设是否喜爱运动与性别无关,由已知数据可求得:
K2=
≈1.1575<2.706,
因此,在犯错误的概率不超过0.10的前提下不能判断喜爱运动与性别有关.
要点三 独立性检验的基本思想
例3 某企业有两个分厂生产某种零件,按规定内径尺寸(单位:
mm)的值落在(29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出500件,量其内径尺寸,结果如下表:
甲厂
分组
[29.86,29.90)
[29.90,29.94)
[29.94,29.98)
[29.98,30.02)
[30.02,30.06)
[30.06,30.10)
[30.10,30.14)
频数
12
63
86
182
92
61
4
乙厂
分组
[29.86,29.90)
[29.90,29.94)
[29.94,29.98)
[29.98,30.02)
[30.02,30.06)
[30.06,30.10)
[30.10,30.14)
频数
29
71
85
159
76
62
18
(1)试分别估计两个分厂生产的零件的优质品率;
(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.
甲厂
乙厂
总计
优质品
非优质品
总计
附:
K2=
,
P(K2≥k0)
0.05
0.01
k0
3.841
6.635
解
(1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为
=72%;
乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为
=64%.
(2)
甲厂
乙厂
总计
优质品
360
320
680
非优质品
140
180
320
总计
500
500
1000
K2=
≈7.353>6.635,
所以有99%的把握认为“两个分厂生产的零件的质量有差异”.
规律方法
(1)解答此类题目的关键在于正确利用K2=
计算k的值,再用它与临界值k0的大小作比较来判断假设检验是否成立,从而使问题得到解决.
(2)此类题目规律性强,解题比较格式化,填表计算分析比较即可,要熟悉其计算流程,不难理解掌握.
跟踪演练3 下表是某地区的一种传染病与饮用水的调查表:
得病
不得病
总计
干净水
52
466
518
不干净水
94
218
312
总计
146
684
830
(1)这种传染病是否与饮用水的卫生程度有关,请说明理由;
(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.
解
(1)假设H0:
传染病与饮用水无关.把表中数据代入公式得:
K2的观测值k=
≈54.21,∵54.21>10.828,所以拒绝H0.
因此我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关.
(2)依题意得2×2列联表:
得病
不得病
总计
干净水
5
50
55
不干净水
9
22
31
总计
14
72
86
此时,K2的观测值k=
≈5.785.
由于5.785>5.024,
所以我们有97.5%的把握认为该种疾病与饮用不干净水有关.
两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但
(1)中我们有99.9%的把握肯定结论的正确性,
(2)中我们只有97.5%的把握肯定.
1.观察下列各图,其中两个分类变量x,y之间关系最强的是( )
答案 D
解析 观察等高条形图发现
=
相差很大,就判断两个分类变量之量关系最强.
2.下面是一个2×2列联表:
y1
y2
总计
x1
a
21
73
x2
8
25
33
总计
b
46
106
则表中a,b处的值分别为( )
A.94,96B.52,50
C.52,60D.54,52
答案 C
解析 ∵a+21=73,∴a=52,b=a+8=52+8=60.
3.经过对K2的统计量的研究,得到了若干个临界值,当K2的观测值k>3.841时,我们( )
A.在犯错误的概率不超过0.05的前提下可认为X与Y有关
B.在犯错误的概率不超过0.05的前提下可认为X与Y无关
C.在犯错误的概率不超过0.01的前提下可认为X与Y有关
D.没有充分理由说明事件X与Y有关系
答案 A
4.根据下表计算:
不看电视
看电视
男
37
85
女
35
143
K2的观测值k≈________(保留3位小数).
答案 4.514
解析 k=
≈4.514.
1.列联表与等高条形图
列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有关联关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有关联关系.
2.对独立性检验思想的理解
独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量K2的值,如果K2值很大,说明假设不合理.K2越大,两个分类变量有关系的可能性越大.
一、基础达标
1.下面说法正确的是( )
A.统计方法的特点是统计推断准确、有效
B.独立性检验的基本思想类似于数学上的反证法
C.任何两个分类变量有关系的可信度都可以通过查表得到
D.不能从等高条形图中看出两个分类变量是否相关
答案 B
2.用独立性检验来考察两个分类变量x与y是否有关系,当统计量K2的观测值( )
A.越大,“x与y有关系”成立的可能性越小
B.越大,“x与y有关系”成立的可能性越大
C.越小,“x与y没有关系”成立的可能性越小
D.与“x与y有关系”成立的可能性无关
答案 B
3.在一个2×2列联表中,由其数据计算得K2的观测值k=7.097,则这两个变量间有关系的可能性为( )
A.99%B.99.5%
C.99.9%D.无关系
答案 A
解析 K2的观测值6.635所以有99%的把握认为两个变量有关系.
4.对两个分类变量A,B的下列说法中正确的个数为( )
①A与B无关,即A与B互不影响;
②A与B关系越密切,则K2的值就越大;
③K2的大小是判定A与B是否相关的唯一依据
A.0B.1C.2D.3
答案 B
解析 ①正确,A与B无关即A与B相互独立;②不正确,K2的值的大小只是用来检验A与B是否相互独立;③不正确,例如借助三维柱形图、二维条形图等.故选B.
5.如果K2的观测值为6.645,可以认为“x与y无关”的可信度是________.
答案 1%
解析 查表可知可信度为1%.
6.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:
作文成绩优秀
作文成绩一般
总计
课外阅读量较大
22
10
32
课外阅读量一般
8
20
28
总计
30
30
60
由以上数据,计算得到K2的观测值k≈9.643,根据临界值表,有________把握认为课外阅读量大与作文成绩优秀有关.
答案 99.5%
解析 根据临界值表,9.643>7.879,在犯错误的概率不超过0.005的前提下,认为课外阅读量大与作文成绩优秀有关,即有99.5%的把握认为课外阅读量大与作文成绩优秀有关.
7.在某测试中,卷面满分为100分,60分为及格,为了调查午休对本次测试前两个月复习效果的影响,特对复习中进行午休和不进行午休的考生进行了测试成绩的统计,数据如下表所示:
分数段
29~40
41~50
51~60
61~70
71~80
81~90
91~100
午休考生人数
23
47
30
21
14
31
14
不午休考生人数
17
51
67
15
30
17
3
(1)根据上述表格完成列联表:
及格人数
不及格人数
总计
午休
不午休
总计
(2)根据列联表可以得出什么样的结论?
对今后的复习有什么指导意义?
解
(1)根据题表中数据可以得到列联表如下:
及格人数
不及格人数
总计
午休
80
100
180
不午休
65
135
200
总计
145
235
380
(2)计算可知,午休的考生及格率为P1=
=
,不午休的考生的及格率为P2=
=
,则P1>P2,因此,可以粗略判断午休与考生考试及格有关系,并且午休的及格率高,所以在以后的复习中考生应尽量适当午休,以保持最佳的学习状态.
二、能力提升
8.在等高条形图中,下列哪两个比值相差越大,要推断的论述成立的可能性就越大( )
A.
与
B.
与
C.
与
D.
与
答案 C
解析 由等高条形图可知
与
的值相差越大,|ad-bc|就越大,相关性就越强.
9.考察棉花种子经过处理跟生病之间的关系得到下表数据:
种子处理
种子未处理
总计
得病
32
101
133
不得病
61
213
274
总计
93
314
407
根据以上数据,可得出( )
A.种子是否经过处理跟是否生病有关
B.种子是否经过处理跟是否生病无关
C.种子是否经过处理决定是否生病
D.以上都是错误的
答案 B
解析 由K2=
≈0.164<2.706,即没有把握认为种子是否经过处理跟是否生病有关.
10.为研究某新药的疗效,给50名患者服用此药,跟踪调查后得下表中的数据:
无效
有效
总计
男性患者
15
35
50
女性患者
6
44
50
总计
21
79
100
设H0:
服用此药的效果与患者的性别无关,则K2的观测值k≈________(小数点后保留三位有效数字),从而得出结论:
服用此药的效果与患者的性别有关,这种判断出错的可能性为________.
答案 4.882 5%
解析 由公式计算得K2的观测值k≈4.882,∵k>3.841,∴我们有95%的把握认为服用此药的效果与患者的性别有关,从而有5%的可能性出错.
11.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得数据,试问:
在出错概率不超过0.025的前提下,能否判断“文科学生总成绩不好与数学成绩不好有关系”?
总成绩不好
总成绩好
总计
数学成绩不好
478
12
490
数学成绩好
399
24
423
总计
877
36
913
解 依题意,计算随机变量K2的观测值:
k=
≈6.233>5.024,
所以在出错概率不超过0.025的前提下,可以判断“文科学生总成绩不好与数学成绩不好有关系”.
12.吃零食是中学生中普遍存在的现象,吃零食对学生身体发育有诸多不利影响,影响学生的健康成长.下表是性别与吃零食的列联表:
男
女
总计
喜欢吃零食
5
12
17
不喜欢吃零食
40
28
68
总计
45
40
85
请问喜欢吃零食与性别是否有关?
解 K2=
,
把相关数据代入公式,得
K2的观测值k=
≈4.722>3.841.
因此,在犯错误的概率不超过0.05的前提下,可以认为“喜欢吃零食与性别有关”.
三、探究与创新
13.在某校对有心理障碍学生进行测试得到如下列联表:
焦虑
说谎
懒惰
总计
女生
5
10
15
30
男生
20
10
50
80
总计
25
20
65
110
试说明在这三种心理障碍中哪一种与性别关系最大?
解 对于题中三种心理障碍分别构造三个随机变量K
,K
,K
.其观测值分别为k1,k2,k3.
由表中数据列出焦虑是否与性别有关的2×2列联表
焦虑
不焦虑
总计
女生
5
25
30
男生
20
60
80
总计
25
85
110
可得k1=
≈0.863<2.706,
同理,k2=
≈6.366>5.024,
k3=
≈1.410<2.706.
因此,在犯错误的概率不超过0.025的前提下,认为说谎与性别有关,没有充分的证据显示焦虑、懒惰与性别有关.