高中数学 统计案例11独立性检验学案苏教版Word下载.docx
《高中数学 统计案例11独立性检验学案苏教版Word下载.docx》由会员分享,可在线阅读,更多相关《高中数学 统计案例11独立性检验学案苏教版Word下载.docx(14页珍藏版)》请在冰豆网上搜索。
c
d
c+d
a+c
b+d
a+b+c+d
将形如此表的表格称为2×
2.卡方统计量
为了消除样本量对|ad-bc|的影响,统计学中引入下面的量(称为卡方统计量):
χ2=
.①
其中n=a+b+c+d为样本量.
3.独立性检验
利用χ2统计量来研究两类对象是否有关系的方法称为独立性检验.
4.要推断“Ⅰ与Ⅱ有关系”,可按下面的步骤进行
(1)提出假设H0:
Ⅰ与Ⅱ没有关系;
(2)根据2×
2列联表与公式①计算χ2的值;
(3)查对临界值(如表),作出判断.
P(χ2≥x0)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
x0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
例如:
①若χ2>
10.828,则有99.9%的把握认为“Ⅰ与Ⅱ有关系”;
②若χ2>
6.635,则有99%的把握认为“Ⅰ与Ⅱ有关系”;
③若χ2>
2.706,则有90%的把握认为“Ⅰ与Ⅱ有关系”;
④若χ2≤2.706,则认为没有充分的证据显示“Ⅰ与Ⅱ有关系”,但也不能作出结论“H0成立”,即不能认为Ⅰ与Ⅱ没有关系.
1.在列联表中,如果两个变量没有关系,则应满足ad-bc≈0.因此|ad-bc|越小,说明两个变量之间关系越弱;
|ad-bc|越大,说明两个变量之间关系越强.
2.独立性检验的基本思想类似于反证法,我们可以利用独立性检验来考察两个对象是否有关,并且能较精确地给出这种判断的把握程度.
[例1] 在一项有关性别与喜欢吃甜食的关系的社会调查中,发现调查的男性为530人,女性为670人,其中男性中喜欢吃甜食的为117人,女性中喜欢吃甜食的为492人,请作出性别与喜欢吃甜食的列联表.
[思路点拨] 在2×
2列联表中,共有两类变量,每一类变量都有两个不同的取值,然后找出相应的数据,列表即可.
[精解详析] 作列联表如下:
喜欢吃甜食
不喜欢吃甜食
男
117
413
530
女
492
178
670
609
591
1200
[一点通]
(1)分清类别是作列联表的关键;
(2)表中排成两行两列的数据是调查得来的结果;
(3)选取数据时,要求表中的四个数据a,b,c,d都要不小于5,以保证检验结果的可信度.
1.下面是一个2×
2列联表:
y1
y2
x1
21
73
x2
25
33
46
则表中a=________,b=________.
解析:
∵a+21=73,∴a=73-21=52.
又∵a+8=b,∴b=52+8=60.
答案:
52 60
2.某学校对高三学生作一项调查后发现:
在平时的模拟考试中,性格内向的426名学生中有332名在考前心情紧张;
性格外向的594名学生中在考前心情紧张的有213人,作出2×
解:
作列联表如下:
性格内向
性格外向
考前心情紧张
332
213
545
考前心情不紧张
94
381
475
426
594
1020
[例2] 某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数如下:
阳性例数
阴性例数
新防护服
5
70
旧防护服
10
18
28
15
88
103
问这种新防护服对预防工人患职业性皮肤炎是否有效?
并说明你的理由.
[思路点拨] 通过有关数据的计算,作出相应的判断.
[精解详析] 提出假设H0:
新防护服对预防皮肤炎没有明显效果.
根据列联表中的数据可求得
≈13.826.
因为H0成立时,χ2≥10.828的概率约为0.001,而这里χ2≈13.826>
10.828,所以我们有99.9%的把握说新防护服比旧防护服对预防工人患职业性皮肤炎有效.
[一点通] 根据2×
2列联表,利用公式
计算χ2的值,再与临界值比较,作出判断.
3.有300人按性别和是否色弱分类如下表:
正常
132
151
色弱
12
色弱与性别是否有关?
提出假设H0:
色弱与性别无关.
通过计算χ2知,
=
≈3.6839.
因为H0成立时,χ2>
2.706的概率约为0.10,
而这里χ2≈3.6839>
2.706,故有90%的把握说色弱与性别有关.
4.有甲、乙两个班级进行一门课的考试,按照学生的考试成绩优秀和不优秀统计后,得到如下列联表:
优秀
不优秀
甲班
35
45
乙班
7
38
17
90
利用列联表的独立性检验估计成绩与班级是否有关系.
成绩与班级没有关系.由列联表中所给数据,可得χ2=
≈0.653<0.708.
因为当H0成立时,χ2≥0.653的概率大于40%,这概率比较大,所以根据目前的调查数据,不能否定假设H0,即不能作出成绩与班级有关的结论.
[例3] 为了调查某生产线上质量监督员甲是否在生产现场对产品质量好坏有无影响,现统计数据如下:
甲在生产现场时,990件产品中有合格品982件,次品8件;
甲不在生产现场时,510件产品中有合格品493件,次品17件.试用独立性检验的方法分析监督员甲是否在生产现场对产品质量好坏有无影响.
[思路点拨] 正确地写出两个分类变量的四个取值,画出2×
2列联表是解决问题的关键,利用χ2公式,计算χ2的值,进而与临界值比较大小,作出结论.
[精解详析] 2×
2列联表如下
合格品数
次品数
甲在生产现场
982
990
甲不在生产现场
493
510
1475
1500
提出假设
H0:
质量监督员甲是否在生产现场与产品质量的好坏无明显关系.
根据χ2公式得
≈13.097.
10.828的概率约为0.001,而这里χ2≈13.097>
10.828,所以有99.9%的把握认为质量监督员甲是否在生产现场与产品质量的好坏有关系.
[一点通]
(1)通过分析题可以画出列联表,然后求得χ2值.
(2)进行独立性检验时和反证法的思想一样,都是先假设与预定的结论相反,然后推出矛盾,在实际做题中成了程序化的步骤,只需求出χ2值,与临界值相比较即可.
5.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:
性别
是否需要志愿者
需要
30
不需要
160
270
430
200
300
500
(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;
(2)有多大的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?
(3)根据
(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?
说明理由.
附:
0.050
.
(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要志愿者提供帮助的老年人的比例的估计值为
=14%.
(2)提出假设H0:
该地区的老年人是否需要志愿者帮助与性别无关,由列联表中所给数据,可得
≈9.967.
因为H0成立时,χ2≈9.967>6.635,所以有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关.
(3)由
(2)的结论知,该地区老年人是否需要志愿者提供帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层,并采用分层抽样方法,比采用简单随机抽样方法更好.
6.电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:
将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.
根据已知条件完成下面的2×
2列联表,并据此资料你是否有95%的把握认为“体育迷”与性别有关?
非体育迷
体育迷
由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×
2列联表如下:
55
100
将2×
2列联表中的数据代入公式计算,
得χ2=
≈3.030.
因为3.030<
3.841,所以没有95%的把握认为“体育迷”与性别有关.
1.独立性检验与反证法的区别和联系
(1)联系
可以用反证法的思想解释独立性检验原理,它们的对应关系为:
反证法思想
独立性检验
要证明结论A
提出假设H0
在A不成立的前提下进行推理
在H0成立的条件下推理
推出矛盾,意味着结论A成立
推出有利于H0成立的小概率事件发生,意味着H0的反面成立的可能性很大
没有找到矛盾,不能对A下任何结论,即反证法不成功
推出有利于H0成立的小概率事件不发生,接受原假设
(2)区别
一是独立性检验中用有利于H0的小概率事件的发生代替了反证法思想中的矛盾;
二是独立性检验中接受原假设的结论相当于反证法中没有找到矛盾.
2.利用2×
2列联表进行独立性检验的一般步骤
→
一、填空题
1.在一项打鼾与患心脏病的调查中,共调查了1671人,经过计算χ2=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的.(有关、无关)
∵χ2=27.63,∴χ2>10.828
∴有理由认为打鼾与患心脏病是有关的.
有关
2.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的序号是________.
①若χ2的观测值为6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;
②从独立性检验可知,有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能性患有肺病;
③若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误;
④以上三种说法均不正确.
若有95%的把握认为两个变量有关系,则说明判断出错的可能性是5%.
③
3.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如下2×
理科
文科
13
23
20
27
50
已知P(χ2≥3.841)≈0.05,P(χ2≥5.024)≈0.025,
根据表中数据得到χ2=
≈4.844.
则有________的把握认为选修文科与性别有关.
95%
4.考察棉花种子是否经过处理跟得病之间的关系,得如下表所示的数据:
种子处理
种子未处理
得病
101
133
不得病
61
274
93
314
407
根据以上数据得χ2的值是________.
由χ2=
,得χ2=0.164.
0.164
5.为大力提倡“厉行节约,反对浪费”,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:
做不到“光盘”
能做到“光盘”
参照附表,得到的正确结论的序号是________.
①在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”;
②在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”;
③有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”;
④有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”.
≈3.03>2.706,
∴有90%以上把握认为“该市居民能否做到‘光盘’与性别有关”,即犯错不超过10%.
二、解答题
6.为研究学生的数学成绩与对学习数学的兴趣是否有关,对某年级学生作调查,得到如下数据:
成绩优秀
成绩较差
兴趣浓厚的
64
兴趣不深厚的
22
95
86
189
学生的数学成绩好坏与对学习数学的兴趣是否有关?
学生数学成绩的好坏与对学习数学的兴趣无关.
由公式得χ2的值
≈38.459.
∵当H0成立时,χ2≥10.828的概率约为0.001,
而这里χ2≈38.459>
10.828,
∴有99.9%的把握认为学生数学成绩的好坏与对学习数学的兴趣是有关的.
7.有两个变量x,y,其一组观测值如下面的2×
2列联表所示:
20-a
15-a
30+a
其中a,15-a均为大于5的整数,则a取何值时,有90%的把握认为x与y之间有关系?
查表可知,要使x与y之间有90%的把握认为有关系,则χ2>
2.706,
由题意,得χ2=
,
由χ2>
2.706,解得a>
7.19或a<
2.04.
又a>
5,且15-a>
5,a∈Z,∴a=8,9.
当a等于8或9时,有90%的把握认为x与y之间有关系.
8.某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:
[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.
规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×
2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?
由已知得样本中有25周岁以上组工人100×
=60人,25周岁以下组工人,100×
=40人.由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有60×
(0.0050+0.0200)×
10=15(人),“25周岁以下组”中的生产能手有40×
(0.0325+0.0050)×
10=15(人),据此可得2×
生产能手
非生产能手
25周岁以上组
60
25周岁以下组
所以得χ2=
≈1.786.
因为1.786<2.706,
所以没有90%的把握认为“生产能手与工人所在的年龄组有关”.