高中数学人教选修12课件第一章统计案例12独立性检验的基本思想及其初步应用Word文件下载.docx
《高中数学人教选修12课件第一章统计案例12独立性检验的基本思想及其初步应用Word文件下载.docx》由会员分享,可在线阅读,更多相关《高中数学人教选修12课件第一章统计案例12独立性检验的基本思想及其初步应用Word文件下载.docx(13页珍藏版)》请在冰豆网上搜索。
c+〃
“+c
b+d
a+〃+c+〃
2•等高条形
⑴等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表
数据的频率特征.
⑵观察等高条形图发现最和拊相差很大,就判
断两个分类变量之间有关系.
3.独立性检验
⑴定义:
利用随机变量卅来判断“两个分类变量有
关系”的方法称为独立性检验.
an(ad—be)
(2)公式:
K?
=(a+b)(c+d)(a+c)(〃+d),
其中M=a+〃+c+d为样本容量.
[思考尝试•夯基]
1.思考判断(正确的打y错误的打“x”)⑴列联表中的数据是两个分类变量的频数.()⑵事件A与〃的独立性检验无关,即两个事件互不
影响.()
⑶酹的大小是判断分类变量A与B是否相关的统计
量.()
2.下列不是分类变量的是()
A.近视B.身高
C.血压D.药物反应
解析:
A、C、D选项的不同值可以表示个体的不同
类别为分类变量,但“身高”的不同值不是表示个体的不
同类别,不是分类变量.
3.在研究两个分类变量之间是否有关时,可以粗略
地判断两个分类变量是否有关的是()
A.散点图B.等高条形图
C.2X2列联表D.以上均不对
解析:
等高条形图可粗略地判断两个分类变量是否有
关.
⑴用的观测值越大,两个分类变量相关性越强;
(2)式子加一加越尢护的值就越大;
(3)在吸烟与患肺病是否有关的判定中:
若护的观测
值46.635,则在犯错误的概率不超过0・01的前提下,认为吸烟与患肺病有关系,那么在100位吸烟的人中必有
99人患有肺病.
5.有2X2列联表:
B
A
54
40
94
32
63
95
86
103
189
由上表可计算川的观测值
-10.76.
如乂f189(54X63-32X40)解析:
“—94X95X86X103
答案:
10.76
类型1等高条形图的应用(自主研析)
[典例1]某学校对高三学生作了一项调查发现:
在平时的模拟考试中,性格内向的学生426人中332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.
[自主解答]列出2X2列联表:
性格内向
性格外向
考前心情紧张
332
213
545
考前心情不紧张
381
475
426
594
1020
相应的等高条形图如图所示:
中阴影部分表示考前心情紧张与考前心情不紧张
中性格内向的比例•从图中可以看出考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的
比例高,可以认为考前紧张与性格类型有关.
»
归纳升华
1.利用等高条形图判断两个分类变量是否有关:
⑴等高条形图直观粗略判定两个分类变量遷否有
(2)在等高条形图中,纟与C相差越大,两个分
a+bc+d
类变量有关系的可能性越大■
[变式训练]观察各图,其中两个分类变量X,y之
间关系最强的是()
in—rn—
口%\
IIX1
勿%2
D
匚]劝
在四个选项中,选项D中等高条形图中阴影
的高度相差最明显,说明两个分类变■之间的关系最强.
类型2独立性检验
[典例2]如表是某地区的一种传染病与饮用水的调
查表:
明理由.
⑵若饮用干净水得病的有5人,不得病的有50人饮用不干净水得病的有9人,不得病的有22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.
解:
⑴假设Ho:
传染病与饮用水无关•把表中数据
代入公式得:
830X(52X218-466X94)2
K的观测值k=—146X684X518X312—
54.21.
在乩成立的情况下,P(^2>
10.828)^0.001,是小概
率事件,
所以拒绝Ho・
因此我们有99.9%的把撮认为该地区这种传染病与
饮用不干净水有关・
(2)依题意得2X2列联表:
得病
不得病
干净水
5
50
55
不干净水
9
22
31
14
72
5.785.
因为5.785>
5.024,卩(用>
5・024戶0.025,
所以我们有97.5%的把提认为该种疾病与饮用不干
净水有关.
两个样本都能统计得到传染病与饮用水不干净水有
关这一相同结论•但⑴中我们有99.9%的把損肯定结论的正确性,
(2)中我们只有97.5%的把握认为该疾病与饮用不干净水有关.
他纳升华独立性检验问题的一般步骤:
1•通过列联表确定"
、爪c、dy11的值,根据实际
问题需要的可信程度钩定临界值饥;
n(ad-be)
2.利用K2^求
(a+“)(c+d)(a+c)(方+d)
出卅的观测值R;
3.如果饥,就推断“两个分类变■有关系”•这
种推断犯错误的概率不超过。
;
否则就认为在犯错误的概率不超过a的前提下不能推断“两个分类变童有关系”•
[变式训练]为了探究学生选报文、理科是否与对外
语的兴趣有关,某同学调查了361名高二在校学生,调查
结果如下:
理科对外语有兴趣的有138人,无兴趣的有
98人,文科对外语有兴趣的有73人,无兴趣的有52人.能
否在犯错误的概率不超过0・1的前提下,认为“学生选报文、理科与对外语的兴趣有关”?
列出2X2列联表
理
文
有兴趣
138
73
211
无兴趣
98
52
150
236
125
361
代入公式得K2的观测值
361X(138X52-73X98)2
k"
—236X125X211X150—^1,871X1。
"
・
V1.871X104<
2.706,
所以,在犯错误的概率不超过0.1的前提下,不能认
为“学生选报文、理科与对外语的兴趣有关”.
类型3独立性检验的综合应用(规范解答)[典例3](本题满分12分)(2014•安徽卷)某高校共有
15000人,其中男生10500人,女生4500人,为调查该
校学生每周平均体育运动时间的情况.采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:
小时)
⑴应收集多少位女生样本数据?
⑵根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据分组区间为:
[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4个小时的概率.
(3)在样本数据中,有60位女生的每周平均体育运动
时间超过4个小时.请完成每周平均体育运动时间与性别的列联表,并判断是否在犯错误的概率不超过0.05的前
提下认为“该校学生的每周平均体育运动时间与性别有
附:
K2=
n(ad—be)
(a+“)(c+d)(a+c)(b+d)
P(心心)
0.10
0.05
0.010
0.005
2.706
3.841
6.635
7.879
审题指导:
⑴由分层抽样的意义,确定样本数据,
根据频率分布直方图频率分布估计概率;
(2)完成2X2列联表,计算/的观测值,进行独立性检验.
生的样本数据.(2分)
失分警示:
此处若不理解分层抽样的含义致误,扣2
分.
(2)由频率分布直方图得:
1-2X(0.100+0.25)=0.75.(5分)失分警示:
此处若注意不到频率分布直方图纵轴的含
义,导致运算错误,扣3分.
所以该校学生每周平均体育运动时间超过4小时的
概率的估计值为0.75.(5分)
(3)由⑵知,300名学生中有300X0.75=225人的每
周平均体育运动时间超过4个小时,75人的每周平均体育运动时间不超过4个小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别的列联表如下:
平均体育运动时间与性别列联表
性别
运动时
男生
女生
每周平均体育运动时
间不超过4个小时
45
30
75
间超过4个小时
165
60
225
210
90
300
(8分)
结合列联表可算得
300X22502
75X225X210X90
4.762>
此处酹错误,至少扣3分.
(10分)
在犯错误的概率不超过0.05的前提下认为“该校学
生的每周平均体育运动时间与性别有关”.(12分)
1.频率分布直方图是通过图来反映题目信息的,借
助图我们可以得出组距及每个数据段上的频率.
2•列联表中数据的获取应结合具体情境具体分析,
如本题中时间应以“每周平均体育运动时间是否超过4个小时”为切入点分类提取・
3.⑴在解答独立性检验题目中,数据有时比较多,
-定不要混淆,要分辨清楚,否则会影响解题的下一步,如体例2X2列联表中数据极易混淆
⑵计算中,有时公式复杂,要记忆准确,同时计真
不能失误.
[类题尝试]某工厂有25周岁以上(含25周岁)工人
300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,
然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分为5组:
[50,60),[60,70),[70,80),[80,90),[90,
100)分别加以统计,得到如图所示的频率分布直方图.
规定日平均生产件数不少于80件者为“生产能
手”,请你根据己知条件完成2X2列联表,并判断能否在犯错误的概率不超过0・1的前提下认为“生产能手与工人所在的年龄组有关”?
由频率分布直方图,在抽取的100名工人中,25
周岁以上组”中的生产能手有60X0.25=15(人),“25周
岁以下组”中的生产能手40X0.375=15(A),
因此,可得2X2列联表如表:
生产能手
非生产能手
25周岁以上组
15
25周岁以下组
25
70
100
所以得:
K2=
n(ad-be)
(a+b)(c+d)(a+c)(b+d)
100X(15X25-45X15)22S
=——〜170
60X40X30X70°
14~丄•九
因为1.79V2.706,
所以不能在犯错误的概率不超过0.1的前提下认为
“生产能手与工人所在的年龄组有关”•
课堂小结
1・独立性检验是对两个分类变量间是否有关系的一
种案例分析方法,其分析方法有:
等高条形图法和利用假设的思想方法,计算出来一个随机变量酹的观测值来进行判断.
2.在等高条形图中,可以估计满足条件X=“i的个
足条件X=x2的个体中具有Y=y2的个体所占的比例为二,两个比例的值相差越大,两个分类变量相关的可能性就越大.