独立性检验的基本思想及其初步应用Word文档格式.docx
《独立性检验的基本思想及其初步应用Word文档格式.docx》由会员分享,可在线阅读,更多相关《独立性检验的基本思想及其初步应用Word文档格式.docx(20页珍藏版)》请在冰豆网上搜索。
![独立性检验的基本思想及其初步应用Word文档格式.docx](https://file1.bdocx.com/fileroot1/2022-10/11/74b8438e-70ba-4797-89a9-cabd0959e7fd/74b8438e-70ba-4797-89a9-cabd0959e7fd1.gif)
x2
c
d
c+d
a+c
b+d
a+b+c+d
下面是一个2×
21
73
8
25
33
46
则表中a,b处的值分别为________.
【解析】 ∵a+21=73,∴a=52.
又b=a+8=52+8=60.
【答案】 52,60
教材整理2 等高条形图
阅读教材P14的内容,完成下列问题.
1.定义:
将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高条形图.
2.等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.
3.观察等高条形图发现和相差很大,就判断两个分类变量之间有关系.
观察下列各图,其中两个分类变量x,y之间关系最强的是________.
图121
【解析】 在四幅图中图(4)中两个深色条的高相差最明显,说明两个分类变量之间关系最强,故选(4).
【答案】 (4)
教材整理3 独立性检验
阅读教材P12的内容,完成下列问题.
1.定义
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
2.公式
K2=,其中n=a+b+c+d.
1.关于分类变量x与y的随机变量K2的观测值k,下列说法正确的是________(填序号).
(1)k的值越大,“X和Y有关系”可信程度越小;
(2)k的值越小,“X和Y有关系”可信程度越小;
(3)k的值越接近于0,“X和Y无关”程度越小;
(4)k的值越大,“X和Y无关”程度越大.
【解析】 k的值越大,X和Y有关系的可能性就越大,也就意味着X和Y无关系的可能性就越小.
【答案】
(2)
2.式子|ad-bc|越大,K2的值就越________.(填“大”或“小”)
【解析】 由K2的表达式知|ad-bc|越大,(ad-bc)2就越大,K2就越大.
【答案】 大
[小组合作型]
用2×
2列联表分析两变量间的关系
在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;
六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并利用与判断二者是否有关系.
【精彩点拨】 →→
→
【自主解答】 2×
2列联表如下:
年龄在六十岁以上
年龄在六十岁以下
饮食以蔬菜为主
43
64
饮食以肉类为主
27
60
70
54
124
将表中数据代入公式得==0.671875.
==0.45.
显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与年龄有关系.
1.作2×
2列联表时,关键是对涉及的变量分清类别.注意应该是4行4列,计算时要准确无误.
2.利用2×
2列联表分析两变量间的关系时,首先要根据题中数据获得2×
2列联表,然后根据频率特征,即将与的值相比,直观地反映出两个分类变量间是否相互影响,但方法较粗劣.
[再练一题]
1.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:
文艺节目
新闻节目
20至40岁
40
18
58
大于40岁
15
42
55
45
100
由表中数据直观分析,收看新闻节目的观众与年龄________.(填“有关”或“无关”)
【解析】 因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即=,=,两者相差较大,所以,经直观分析,收看新闻节目的观众与年龄有关.
【答案】 有关
用等高条形图分析两变量间的关系
某学校对高三学生作了一项调查发现:
在平时的模拟考试中,性格内向的学生426人中332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张.作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.
【精彩点拨】 ―→―→
【自主解答】 作列联表如下:
性格内向
性格外向
考前心情紧张
332
213
545
考前心情不紧张
94
381
475
426
594
1020
相应的等高条形图如图所示:
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例.从图中可以看出,考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关.
1.判断两个分类变量是否有关系的两种常用方法
(1)利用数形结合思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法.
(2)一般地,在等高条形图中,与相差越大,两个分类变量有关系的可能性就越大.
2.利用等高条形图判断两个分类变量是否相关的步骤
2.为考察某种药物预防疾病的效果,进行动物试验,得到如下的列联表:
药物效果试验列联表
患病
未患病
服用药
10
没有服用药
20
30
50
75
105
试用图形判断服用药与患病之间是否有关系?
【解】 相应的等高条形图如下:
从图形可以看出,服用药的样本中患病的比例明显低于没有服用药的样本中患病的比例,因此可以认为:
服用药和患病之间有关系.
独立性检验
在对人们休闲方式的一次调查中,共调查120人,其中女性70人、男性50人.女性中有40人主要的休闲方式是看电视,另外30人主要的休闲方式是运动;
男性中有20人主要的休闲方式是看电视,另外30人主要的休闲方式是运动.
(1)根据以上数据建立一个2×
2的列联表;
(2)休闲方式与性别是否有关?
【精彩点拨】 先根据已知数据建立2×
2列联表,再通过列联表中的数值求K2,再根据K2的值作出判断.
【自主解答】
(1)2×
2的列联表为
看电视
运动
女性
男性
120
(2)计算K2的观测值为
k==≈3.429.
而2.706<
3.429<
3.841.
因为P(K2>
2.706)≈0.10.
所以,在犯错误的概率不超过0.10的前提下,认为休闲方式与性别有关.
解决一般的独立性检验问题的步骤
3.为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:
理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.试分析学生选报文、理科与对外语的兴趣是否有关?
【导学号:
81092004】
【解】 根据题目所给的数据得到如下列联表:
理科
文科
有兴趣
138
211
无兴趣
98
52
150
236
125
361
根据列联表中数据由公式计算得K2的观测值为
k=≈1.871×
10-4.
因为1.871×
10-4<
2.706,所以据目前的数据不能认为学生选报文、理科与对外语的兴趣有关,即可以认为学生选报文、理科与对外语的兴趣无关.
[探究共研型]
独立性检验的综合应用
探究1 利用K2进行独立性检验,估计值的准确度与样本容量有关吗?
【提示】 利用K2进行独立性检验,可以对推断的正确性的概率作出估计,样本容量n越大,这个估计值越准确,如果抽取的样本容量很小,那么利用K2进行独立性检验的结果就不具有可靠性.
探究2 在K2运算后,得到K2的值为29.78,在判断变量相关时,P(K2≥6.635)≈0.01和P(K2≥7.879)≈0.005,哪种说法是正确的?
【提示】 两种说法均正确.P(K2≥6.635)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两个变量相关;
而P(K2≥7.879)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两个变量相关.
为了调查某生产线上质量监督员甲对产品质量好坏有无影响,现统计数据如下:
甲在生产现场时,990件产品中有合格品982件,次品8件;
甲不在生产现场时,510件产品中有合格品493件,次品17件.试分别用列联表、独立性检验的方法分析监督员甲对产品质量好坏有无影响.能否在犯错误的概率不超过0.001的前提下,认为质量监督员甲是否在生产现场与产品质量有关?
【精彩点拨】 解答本题可先列出2×
2列联表,然后具体分析.
合格品数
次品数
甲在生产现场
982
990
甲不在生产现场
493
17
510
合计
1475
1500
由列联表可得|ad-bc|=|982×
17-493×
8|=12750,相差较大,可在某种程度上认为“质量监督员甲是否在生产现场与产品质量有关系”.
(2)由2×
2列联表中数据,计算得到K2的观测值为
k=≈13.097>
10.828,
因此在犯错误不超过0.001的前提下,认为质量监督员甲是否在生产现场与产品质量有关.
判断两个变量是否有关的三种方法
4.调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据:
出生时间在晚上的男婴为24人,女婴为8人;
出生时间在白天的男婴为31人,女婴为26人.
(1)将下面的2×
2列联表补充完整;
晚上
白天
男婴
女婴
(2)能否在犯错误的概率不超过0.1的前提下认为婴儿性别与出生时间有关系?
【解】
(1)2×
24
31
26
34
32
57
89
(2)由所给数据计算K2的观测值
k=
≈3.689>
2.706.
根据临界值表知P(K2≥2.706)≈0.10.
因此在犯错误的概率不超过0.10的前提下认为婴儿的性别与出生时间有关系.
1.在一项中学生近视情况的调查中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( )
A.平均数与方差B.回归分析
C.独立性检验D.概率
【解析】 判断两个分类变量是否有关的