北师大版数学选修 第3章 2 独立性检验Word格式.docx
《北师大版数学选修 第3章 2 独立性检验Word格式.docx》由会员分享,可在线阅读,更多相关《北师大版数学选修 第3章 2 独立性检验Word格式.docx(10页珍藏版)》请在冰豆网上搜索。
A2
c
d
c+d
a+c
b+d
n=a+b+c+d
其中,a表示变量A取A1,且变量B取B1时的数据;
b表示变量A取A1,且变量B取B2时的数据;
c表示变量A取A2,且变量B取B1时的数据;
d表示变量A取A2,且变量B取B2时的数据.
2.独立性检验的基本思想
在2×
2列联表中,令χ2=
.当数据量较大时,在统计中,用以下结果对变量的独立性进行判断.
(1)当χ2≤2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的;
(2)当χ2>
2.706时,有90%的把握判定变量A,B有关联;
(3)当χ2>
3.841时,有95%的把握判定变量A,B有关联;
(4)当χ2>
6.635时,有99%的把握判定变量A,B有关联.
思考:
当χ2≤2.706时,能否确定A,B一定没有关联?
[提示] 不能.χ2实质上是一个可信度问题,当χ2≤2.706时没有充分的证据判定变量A,B有关联,但不能确定A,B一定没有关联.
1.在一项中学生近视情况的调查中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学
生眼睛近视是否与性别有关时用什么方法最有说服力( )
A.平均数与方差B.回归分析
C.独立性检验D.概率
C [判断两个分类变量是否有关的最有效方法是进行独立性检验,故选C.]
2.对分类变量X与Y的统计量χ2的值说法正确的是( )
A.χ2越大,“X与Y有关系”的把握性越小
B.χ2越小,“X与Y有关系”的把握性越小
C.χ2越接近于0,“X与Y无关系”的把握性越小
D.χ2越接近于0,“X与Y无关系”的把握性越大
B [χ2越大,X与Y越不独立,所以关联越大;
相反,χ2越小,关联越小.]
3.在一个2×
2列联表中,通过数据计算χ2=8.325,则这两个变量间有关系的可能性为________.
[答案] 99%
4.下面是2×
y
x
y1
y2
x1
21
73
x2
2
25
27
46
100
则a+b=__________________.
106 [a=73-21=52,b=100-46=54.故a+b=106.]
2×
2列联表
【例1】 在调查的480名男性中有38名患有色盲,520名女性中有6名患有色盲,试作出性别与色盲的列联表.
[解] 根据题目所给的数据作出如下的列联表:
患色盲情况
性别
患色盲
不患色盲
男
38
442
480
女
6
514
520
44
956
1000
1.作2×
2列联表时,关键是对涉及的变量分清类别.注意应该是4行4列,计算时要准确无误.
2.利用2×
2列联表分析两变量间的关系时,首先要根据题中数据获得2×
2列联表,然后根据频率特征,即将
与
的值相比,直观地反映出两个分类变量间是否相互影响,但方法较粗劣.
1.某学校对高三学生作一项调查后发现:
在平时的模拟考试中,性格内向的426名学生中有332名在考前心情紧张,性格外向的594名学生中在考前心情紧张的有213人.试作出2×
2列联表.
[解] 列联表如下:
性格情况
考前心情是否紧张
性格内向
性格外向
考前心情紧张
332
213
545
考前心情不紧张
94
381
475
426
594
1020
独立性检验
【例2】 在500人身上试验某种血清预防感冒的作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示.问:
能否在犯错误的概率不超过1%的前提下认为该种血清能起到预防感冒的作用.
未感冒
感冒
使用血清
258
242
500
未使用血清
216
284
500
474
526
[解] 由列联表中的数据,求得
χ2=
≈7.075.
χ2=7.075≥6.635,
查表得P(χ2≥6.635)=0.01,
故我们在犯错误的概率不超过1%的前提下,即有99%的把握认为该种血清能起到预防感冒的作用.
1.熟练掌握χ2统计量的数值计算,根据计算得出χ2值,对比三个临界值2.706,3.841和6.635,作出统计推断.
2.独立性检验的一般步骤:
(1)根据样本数据列2×
2列联表;
(2)计算χ2=
的值;
(3)将χ2的值与临界值进行比较,若χ2大于临界值,则认为X与Y有关,否则没有充分的理由说明这个假设不成立.
2.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:
性别
是否需要志愿者
需要
40
30
不需要
160
270
(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;
(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?
[解]
(1)调查的500位老年人中有70位需要志愿者提供帮助,因此在该地区老年人中,需要帮助的老年人的比例的估计值为
×
100%=14%.
(2)χ2=
≈9.967.
因为9.967>
6.635,所以有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关.
独立性检验的应用
[探究问题]
1.当χ2>3.841时,我们有多大的把握认为事件A与B有关?
[提示] 由临界值表可知当χ2>3.841时,我们有95%的把握认为事件A与B有关.
2.在研究打鼾与患心脏病之间的关系中,通过收集数据、整理分析数据得到“打鼾与患心脏病有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的.我们是否可以判定100个心脏病患者中一定有打鼾的人?
[提示] 这是独立性检验,在犯错误的概率不超过0.01的前提下认为“打鼾与患心脏病有关”.这只是一个概率,即打鼾与患心脏病有关的可能性为99%.根据概率的意义可知100个心脏病患者中可能一个打鼾的人都没有.
【例3】 为了解某市创建文明城市过程中,学生对创建工作的满意情况,相关部门对某中学的100名学生进行调查,其中有50名男生对创建工作表示满意,有15名女生对创建工作表示不满意.已知在全部100名学生中随机抽取1人,其对创建工作表示满意的概率为
.是否有充足的证据说明,学生对创建工作的满意情况与性别有关?
思路探究:
解决本题首先根据对工作满意的概率,确定对工作满意的男女生人数,再画出2×
2列联表,最后根据2×
2列联表计算χ2,并进行判断.
[解] 由题意得2×
2列联表如下:
满足情况
满意
不满意
男生
50
5
55
女生
15
45
80
20
≈9.091>6.635,
∴我们有99%的把握认为学生对创建工作的满意情况与性别有关.
1.独立性检验的基本思想是要确认两个变量有关系这一结论成立的可信程度,首先假设结论“两个变量没有关系”成立,在该假设下我们构造的统计量χ2应该很小,如果用观测数据计算的统计量χ2很大,则在一定程度上说明假设不合理.由χ2与临界值的大小关系,作出判断.
2.独立性检验仍然属于用样本估计总体,由于样本抽取具有随机性,因而作出的推断可能正确,也可能错误,有95%(或99%)的把握认为事件A与B有关,则推断结论为错误的可能性仅为5%(或1%).
3.有两个变量x与y,其一组观测值如下2×
2列联表所示:
y
20-a
15-a
30+a
其中a,15-a均为大于5的整数,则a取何值时,有95%的把握认为x与y之间有关系?
[解] 由题意χ2=
=
.
∵有95%的把握认为x与y之间有关系,
∴χ2>
3.841,
∴
>
∴a>
7.7或a<
1.5.
又a>
5,15-a>
5,∴7.7<
a<
10.
又a∈N,∴a=8或a=9.
1.独立性检验是一种假设检验,在对总体的估计中,通过抽取样本,构造合适的统计量,对假设的正确性进行判断.
2.使用χ2统计量作2×
2列联表的独立性检验时,一般要求表中的4个数据都大于5,数据越大,越能说明结果的普遍性.
3.独立性检验的基本步骤:
(1)列出2×
(2)求出χ2=
(3)判断是否有关联,得出事件有关的可能性大小.
1.下面是一个2×
则表中a,b处的值分别为( )
53
8
33
A.32,40 B.42,50
C.74,82D.64,72
A [a=53-21=32,b=a+8=40.]
2.为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×
2列联表进行独立性检验,经计算χ2=8.01,则认为“喜欢乡村音乐与性别有关系”的把握性约为( )
χ2
0.100
0.050
0.025
0.010
0.001
k0
2.706
3.841
5.024
6.635
10.828
A.0.1%B.1%
C.99%D.99.9%
C [因为χ2>
6.635,所以有99%以上的把握认为“喜欢乡村音乐与性别有关系”.]
3.在2×
2列联表中,两个比值
与________相差越大,两个分类变量有关系的可能性越大.
[根据2×
2列联表可知,比值
相差越大,则|ad-bc|就越大,那么两个分类变量有关系的可能性就越大.]
4.以下关于独立性检验的说法中,正确的是________.(填序号)
①独立性检验依据小概率原理;
②独立性检验得到的结论一定正确;
③样本不同,独立性检验的结论可能有差异;
④独立性检验不是判断两分类变量是否相关的唯一方法.
①③④ [独立性检验得到的结论不一定正确,故②错,①③④正确.]
5.某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:
喜欢甜品
不喜欢甜品
南方学生
60
北方学生
10
70
根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
[解] 将2×
2列联表中的数据代入公式计算,得
≈4.762.
因为4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.