版高中数学第三章统计案例32独立性检验的基本思想及其初步应用学案新人教A版.docx
《版高中数学第三章统计案例32独立性检验的基本思想及其初步应用学案新人教A版.docx》由会员分享,可在线阅读,更多相关《版高中数学第三章统计案例32独立性检验的基本思想及其初步应用学案新人教A版.docx(23页珍藏版)》请在冰豆网上搜索。
版高中数学第三章统计案例32独立性检验的基本思想及其初步应用学案新人教A版
§3.2 独立性检验的基本思想及其初步应用
学习目标
1.了解分类变量的意义.2.了解2×2列联表的意义.3.了解随机变量K2的意义.4.通过对典型案例分析,了解独立性检验的基本思想和方法.
知识点一 分类变量及2×2列联表
思考 山东省教育厅大力推行素质教育,增加了高中生的课外活动时间,某校调查了学生的课外活动方式,结果整理成下表:
体育
文娱
合计
男生
210
230
440
女生
60
290
350
合计
270
520
790
如何判定“喜欢体育还是文娱与性别是否有联系”?
答案 可通过表格与图形进行直观分析,也可通过统计分析定量判断.
梳理
(1)分类变量
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表
①定义:
列出的两个分类变量的频数表,称为列联表.
②2×2列联表
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(也称为2×2列联表)为下表.
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
知识点二 等高条形图
1.与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.
2.如果通过直接计算或等高条形图发现
和
相差很大,就判断两个分类变量之间有关系.
知识点三 独立性检验
1.定义:
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
2.K2=
,其中n=a+b+c+d为样本容量.
3.独立性检验的具体做法
(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.
(2)利用公式计算随机变量K2的观测值k.
(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.
1.列联表中的数据是两个分类变量的频数.( √ )
2.事件A与B的独立性检验无关,即两个事件互不影响.( × )
3.K2的大小是判断事件A与B是否相关的统计量.( √ )
类型一 等高条形图的应用
例1 为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:
组别
阳性数
阴性数
总计
铅中毒病人
29
7
36
对照组
9
28
37
总计
38
35
73
试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?
考点 定性分析的两类方法
题点 利用图形定性分析
解 等高条形图如图所示:
其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.
由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.
反思与感悟 在等高条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例
,也可以估计满足条件X=x2的个体中具有Y=y1的个体所占的比例
.两个比例的值相差越大,X与Y有关系成立的可能性就越大.
跟踪训练1 网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1000人调查,发现其中经常上网的有200人,这200人中有80人期末考试不及格,而另外800人中有120人不及格.利用图形判断学生经常上网与学习成绩有关吗?
考点 定性分析的两类方法
题点 利用图形定性分析
解 根据题目所给的数据得到如下2×2列联表:
经常上网
不经常上网
总计
不及格
80
120
200
及格
120
680
800
总计
200
800
1000
得出等高条形图如图所示:
比较图中阴影部分的高可以发现经常上网不及格的频率明显高于经常上网及格的频率,因此可以认为经常上网与学习成绩有关.
类型二 独立性检验
例2 某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:
喜欢甜品
不喜欢甜品
合计
南方学生
60
20
80
北方学生
10
10
20
合计
70
30
100
根据表中数据,问是否在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
考点 独立性检验及其基本思想
题点 独立性检验的方法
解 将2×2列联表中的数据代入公式计算,得
K2的观测值k=
=
=
≈4.762.
因为4.762>3.841,所以在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
反思与感悟
(1)独立性检验的关注点
在2×2列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0,因此|ad-bc|越小,关系越弱;|ad-bc|越大,关系越强.
(2)独立性检验的具体做法
①根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误的概率的上界α,然后查表确定临界值k0.
②利用公式K2=
计算随机变量K2的观测值k.
③如果k≥k0,推断“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”.
跟踪训练2 某省进行高中新课程改革已经四年了,为了解教师对新课程教学模式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.
(1)根据以上数据建立一个2×2列联表;
(2)判断是否有99%的把握说明对新课程教学模式的赞同情况与教师年龄有关系.
考点 独立性检验及其基本思想
题点 独立性检验的方法
解
(1)2×2列联表如下所示:
赞同
不赞同
总计
老教师
10
10
20
青年教师
24
6
30
总计
34
16
50
(2)假设“对新课程教学模式的赞同情况与教师年龄无关”.
由公式得K2=
≈4.963<6.635,
所以没有99%的把握认为对新课程教学模式的赞同情况与教师年龄有关.
类型三 独立性检验的综合应用
例3 (2017·全国Ⅱ改编)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:
kg),其频率分布直方图如图:
(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50kg,新养殖法的箱产量不低于50kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关.
箱产量<50kg
箱产量≥50kg
旧养殖法
新养殖法
附:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
K2=
.
考点 独立性检验思想的应用
题点 分类变量与统计、概率的综合性问题
解
(1)记B表示事件“旧养殖法的箱产量低于50kg”,C表示事件“新养殖法的箱产量不低于50kg”,
由P(A)=P(BC)=P(B)P(C),
则旧养殖法的箱产量低于50kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,
故P(B)的估计值为0.62,
新养殖法的箱产量不低于50kg的频率为(0.068+0.046+0.010+0.008)×5=0.66,
故P(C)的估计值为0.66,
则事件A的概率估计值为P(A)=P(B)P(C)=0.62×0.66=0.4092,
∴A发生的概率为0.4092.
(2)根据箱产量的频率分布直方图得到列联表:
箱产量<50kg
箱产量≥50kg
总计
旧养殖法
62
38
100
新养殖法
34
66
100
总计
96
104
200
则K2=
≈15.705,
由15.705>6.635,
故有99%的把握认为箱产量与养殖方法有关.
反思与感悟 两个分类变量相关关系的判断
(1)等高条形图法:
在等高条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例
,也可以估计满足条件X=x2的个体中具有Y=y1的个体所占的比例
.两个比例的值相差越大,X与Y有关系成立的可能性就越大.
(2)观测值法:
通过2×2列联表,先计算K2的观测值k,然后借助k的含义判断“两个分类变量有关系”这一结论成立的可信程度.
跟踪训练3 为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查得到了如下的2×2列联表:
喜爱打篮球
不喜爱打篮球
合计
男生
6
女生
10
合计
48
已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为
.
(1)请将上面的2×2列联表补充完整(不用写计算过程);
(2)能否在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关?
说明你的理由;
(3)现从女生中抽取2人进一步调查,设其中喜爱打篮球的女生人数为X,求X的分布列与均值.
考点 独立性检验思想的应用
题点 分类变量与统计、概率的综合性问题
解
(1)列联表补充如下:
喜爱打篮球
不喜爱打篮球
合计
男生
22
6
28
女生
10
10
20
合计
32
16
48
(2)由K2=
≈4.286.
因为4.286>3.841,所以,能在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关.
(3)喜爱打篮球的女生人数X的可能取值为0,1,2.
其概率分别为
P(X=0)=
=
,
P(X=1)=
=
,
P(X=2)=
=
,
故X的分布列为
X
0
1
2
P
X的均值为E(X)=0+
+
=1.
1.某机构调查中学生的近视情况,了解到某校150名男生中有80名近视,140名女生中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( )
A.平均数B.方差C.回归分析D.独立性检验
考点 独立性检验及其基本思想
题点 独立性检验的思想
答案 D
2.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是( )
A.k越大,“X与Y有关系”的可信程度越小
B.k越小,“X与Y有关系”的可信程度越小
C.k越接近于0,“X与Y没有关系”的可信程度越小
D.k越大,“X与Y没有关系”的可信程度越大
考点 独立性检验及其基本思想
题点 独立性检验的思想
答案 B
解析 k越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大,k越小,“X与Y有关系”的可信程度越小.
3.用等高条形图粗略估计两个分类变量是否相关,观察下列各图,其中两个分类变量关系最强的是( )
考点 定性分析的两类方法
题点 利用图形定性分析
答案 D
解析 由等高条形图易知,D选项两个分类变量关系最强.
4.若在研究吸烟与患肺癌的关系中,通过收集、整理分析数据得“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,则下列说法中正确的是( )
A.100个吸烟者中至少有99人患有肺癌
B.1个人吸烟,那么这个人有99%的概率患有肺癌
C.在100个吸烟者中一定有患肺癌的人
D.在100个吸烟者中可能一个患肺癌的人也没有
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 D
解析 独立性检验的结论是一个统计量,统计的结果只是说明事件发生的可能性的大小,具体到一个个体,则不一定发生.
5.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据.
总成绩好
总成绩不好
总计
数学成绩好
478
a
490
数学成绩不好
399
24
423
总计
b
c
913
(1)计算a,b,c的值;
(2)文科学生总成绩不好与数学成绩不好有关系吗?
考点 独立性检验及其基本思想
题点 独立性检验的方法
解
(1)由478+a=490,得a=12.
由a+24=c,得c=12+24=36.
由b+c=913,得b=913-36=877.
(2)计算随机变量K2的观测值
k=
≈6.233>5.024,
因为P(K2≥5.024)≈0.025,
所以在犯错误的概率不超过0.025的前提下,认为文科学生总成绩不好与数学成绩不好有关系.
1.列联表与等高条形图
列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有相关关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有相关关系.
2.对独立性检验思想的理解
独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量K2的值,如果K2的值很大,说明假设不合理.K2越大,两个分类变量有关系的可能性越大.
一、选择题
1.下面是一个2×2列联表:
y1
y2
总计
x1
a
21
73
x2
8
25
33
总计
b
46
106
则表中a,b的值分别为( )
A.94,96B.52,50
C.52,60D.54,52
考点 分类变量与列联表
题点 求列联表中的数据
答案 C
2.为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,经计算得K2=7.01,则认为“喜欢乡村音乐与性别有关系”的把握约为( )
A.0.1%B.1%C.99%D.99.9%
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 C
解析 易知K2=7.01>6.635,对照临界值表知,有99%的把握认为喜欢乡村音乐与性别有关系.
3.在独立性检验中,两个分类变量“X与Y有关系”的可信度为99%,则随机变量K2的观测值k的取值范围是( )
A.[3.841,5.024)B.[5.024,6.635)
C.[6.635,7.879)D.[7.879,10.828)
考点 分类变量与列联表
题点 求观测值
答案 C
4.高二第二学期期中考试,按照甲、乙两个班学生的数学成绩优秀和及格统计人数后,得到如下列联表:
优秀
及格
总计
甲班
11
34
45
乙班
8
37
45
总计
19
71
90
则随机变量K2的观测值约为( )
A.0.600B.0.828
C.2.712D.6.004
考点 分类变量与列联表
题点 求观测值
答案 A
解析 根据列联表中的数据,可得随机变量K2的观测值k=
≈0.600.故选A.
5.在2×2列联表中,两个比值相差越大,两个分类变量有关系的可能性就越大,那么这两个比值为( )
A.
与
B.
与
C.
与
D.
与
考点 定性分析的两类方法
题点 利用图形定性分析
答案 A
解析 由题意,
=
=
,因为|ad-bc|的值越大,两个分类变量有关系的可能性就越大,故选A.
6.有两个分类变量X,Y,其列联表如下所示,
Y1
Y2
X1
a
20-a
X2
15-a
30+a
其中a,15-a均为大于5的整数,若在犯错误的概率不超过0.05的前提下认为X,Y有关,则a的值为( )
A.8B.9
C.8或9D.6或8
考点 分类变量与列联表
题点 求列联表中的数据
答案 C
解析 根据公式,得K2的观测值
k=
=
>3.841,根据a>5且15-a>5,
a∈Z,求得当a=8或9时满足题意.
7.某班主任对全班50名学生进行了作业量的调查,数据如下表:
认为作业量大
认为作业量不大
合计
男生
18
9
27
女生
8
15
23
合计
26
24
50
则推断“学生的性别与认为作业量大有关”这种推断犯错误的概率不超过( )
A.0.01B.0.025C.0.005D.0.001
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 B
解析 由公式得K2的观测值k=
≈5.059>5.024.∵P(K2≥5.024)=0.025,∴犯错误的概率不超过0.025.
二、填空题
8.在吸烟与患肺病是否相关的判断中,有下面的说法:
①若K2的观测值k>6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;
②从独立性检验可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;
③从独立性检验可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.
其中说法正确的是________.
考点 独立性检验及其基本思想
题点 独立性检验的思想
答案 ③
解析 K2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说法③正确.
9.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体数据如下表:
专业
性别
非统计专业
统计专业
男
13
10
女
7
20
为了判断主修统计专业是否与性别有关系,根据表中的数据,得到K2=
≈4.844,因为K2>3.841,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性最大为__________.
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 5%
解析 因为K2>3.841,所以有95%的把握认为主修统计专业与性别有关,出错的可能性为5%.
10.2014年世界杯期间,某一电视台对年龄高于40岁和不高于40岁的人是否喜欢西班牙队进行调查,对高于40岁的调查了50人,不高于40岁的调查了50人,所得数据制成如下列联表:
不喜欢西班牙队
喜欢西班牙队
总计
高于40岁
p
q
50
不高于40岁
15
35
50
总计
a
b
100
若工作人员从所有统计结果中任取一个,取到喜欢西班牙队的人的概率为
,则有超过________的把握认为年龄与西班牙队的被喜欢程度有关.
附:
K2=
.
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 95%
解析 设“从所有人中任意抽取一个,取到喜欢西班牙队的人”为事件A,由已知得P(A)=
=
,
所以q=25,p=25,a=40,b=60.
K2=
=
≈4.167>3.841.
故有超过95%的把握认为年龄与西班牙队的被喜欢程度有关.
三、解答题
11.研究人员选取170名青年男女大学生的样本,对他们进行一种心理测验.发现有60名女生对该心理测验中的最后一个题目的反应是:
作肯定的有22名,否定的有38名;男生110名在相同的项目上作肯定的有22名,否定的有88名.问:
性别与态度之间是否存在某种关系?
分别用条形图和独立性检验的方法判断.
考点 定性分析的两类方法
题点 利用图形定性分析
解 建立性别与态度的2×2列联表如下:
肯定
否定
总计
男生
22
88
110
女生
22
38
60
总计
44
126
170
根据列联表中所给的数据,可求出男生中作肯定态度的频率为
=0.2,女生中作肯定态度的频率为
≈0.37.作等高条形图如图,其中两个深色条形的高分别表示男生和女生中作肯定态度的频率,比较图中深色条形的高可以发现,女生中作肯定态度的频率明显高于男生中作肯定态度的频率,因此可以认为性别与态度有关系.
根据列联表中的数据得到K2的观测值k=
≈5.622>5.024.
因此,在犯错误的概率不超过0.025的前提下认为性别和态度有关系.
12.某旅行社为调查市民喜欢“人文景观”景点是否与年龄有关,随机抽取了55名市民,得到数据如下表所示:
喜欢
不喜欢
合计
大于40岁
20
5
25
20岁至40岁
10
20
30
合计
30
25
55
(1)判断是否有99.5%的把握认为喜欢“人文景观”景点与年龄有关?
(2)用分层抽样的方法从喜欢“人文景观”景点的市民中随机抽取6人作进一步调查,将这6名市民作为一个样本,从中任选2人,求恰有1位大于40岁的市民和1位20岁至40岁的市民的概率.
考点 独立性检验思想的应用
题点 分类变量与统计、概率的综合性问题
解
(1)由公式K2=
得,观测值k≈11.978>7.879,所以有99.5%以上的把握认为喜欢“人文景观”景点与年龄有关.
(2)由题意知抽取的6人中大于40岁的市民有4个,20岁至40岁的市民有2个,分别记为B1,B2,B3,B4,C1,C2,
从中任选2人的基本事件有(B1,B2),(B1,B3),(B1,B4),(B1,C1),(B1,C2),(B2,B3),(B2,B4),(B2,C1),(B2,C2),(B3,B4),(B3,C1),(B3,C2),(B4,C1),(B4,C2),(C1,C2),共15个,其中恰有1位大于40岁的市民和1位20岁至40岁的市民的事件有(B1,C1),(B1,C2),(B2,C1),(B2,C2),(B3,C1),(B3,C2),(B4,C1),(B4,C2),共8个,所以恰有1位大于40岁的市民和1位20岁至40岁的市民的概率为
.
四、探究与拓展
13.假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其中2×2列联表为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
对同一样本,以下数据能说明X与Y有关的可能性最大的一组是( )
A.a=5,b=4,c=3,d=2B.a=5,b=3,c=4,d=2
C.