数学23讲义+第8章 84 列联表独立性分析案例Word文档格式.docx
《数学23讲义+第8章 84 列联表独立性分析案例Word文档格式.docx》由会员分享,可在线阅读,更多相关《数学23讲义+第8章 84 列联表独立性分析案例Word文档格式.docx(17页珍藏版)》请在冰豆网上搜索。
![数学23讲义+第8章 84 列联表独立性分析案例Word文档格式.docx](https://file1.bdocx.com/fileroot1/2023-1/6/d8491e93-ccb8-41bf-9455-7f99907874ed/d8491e93-ccb8-41bf-9455-7f99907874ed1.gif)
0.005
0.001
x0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
表示在H0成立的情况下,事件“χ2≥x0”发生的概率.
5.变量独立性判断的依据
(1)如果χ2>
10.828时,就有99.9%的把握认为“X与Y有关系”;
(2)如果χ2>
6.635时,就有99%的把握认为“X与Y有关系”;
(3)如果χ2>
2.706时,就有90%的把握认为“X与Y有关系”;
(4)如果χ2≤2.706时,就认为没有充分的证据显示“X与Y有关系”,但也不能作出结论“H0成立”,即X与Y没有关系.
[小问题·
大思维]
1.利用χ2进行独立性分析,估计值的准确度与样本容量有关吗?
提示:
利用χ2进行独立性分析,可以对推断的正确性的概率作出估计,样本容量n越大,这个估计值越准确.如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.
2.在χ2运算后,得到χ2的值为29.78,在判断因素相关时,P(χ2≥6.64)≈0.01和P(χ2≥7.88)≈0.005,哪种说法是正确的?
两种说法均正确.P(χ2≥6.64)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两因素相关;
而P(χ2≥7.88)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两因素相关.
独立性分析的原理
[例1] 打鼾不仅影响别人休息,而且可能与患某种疾病有关.下表是一次调查所得的数据:
患心脏病
未患心脏病
总计
每一晚都打鼾
30
224
254
不打鼾
24
1355
1379
54
1579
1633
根据列联表的独立性分析,是否有99%的把握认为每一晚都打鼾与患心脏病有关系?
[解] 由列联表中的数据,得χ2的值为
χ2=
≈68.033>
6.635.
因此,有99%的把握认为每一晚打鼾与患心脏病有关系.
解决一般的独立性分析问题,首先由所给2×
2列联表确定a,b,c,d,a+b+c+d的值,然后代入随机变量的计
算公式求出观测值χ2,将χ2与临界值x0进行对比,确定有多大的把握认为两个分类变量有关系.
1.某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,经过调查得到如下列联表:
积极支持
企业改革
不太支持
工作积极
40
94
工作一般
32
63
95
86
103
189
根据列联表的独立性分析,是否有99%的把握认为工作态度与支持企业改革之间有关系?
解:
由列联表中的数据,得
≈10.759>
6.635,
∴有99%的把握认为工作态度与支持企业改革之间有关系.
独立性分析的应用
[例2] 下表是某地区的一种传染病与饮用水的调查表:
得病
不得病
干净水
52
466
518
不干净水
218
312
146
684
830
(1)这种传染病是否与饮用水的卫生程度有关,请说明理由;
(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.
[解]
(1)假设H0:
传染病与饮用水无关.把表中数据代入公式,得χ2=
≈54.21,
因为当H0成立时,χ2≥10.828的概率约为0.001,
所以我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关.
(2)依题意得2×
2列联表:
5
50
55
9
22
31
14
72
此时,χ2=
≈5.785.
由于5.785>2.706,所以我们有90%的把握认为该种疾病与饮用不干净水有关.
两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但
(1)中我们有99.9%的把握肯定结论的正确性,
(2)中我们只有90%的把握肯定.
独立性分析的步骤:
要推断“X与Y是否有关”可按下面的步骤进行:
①提出统计假设H0:
②根据2×
2列联表与χ2计算公式计算出χ2的值;
③根据两个临界值,作出判断.
2.为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:
理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.是否有90%的把握认为“学生选报文、理科与对外语的兴趣有关”?
根据题目所给的数据得到如下列联表:
理科
文科
有兴趣
138
73
211
无兴趣
98
150
236
125
361
根据列联表中数据由公式计算得随机变量
≈1.871×
10-4.
因为1.871×
10-4<
2.706,所以没有90%的把握认为“学生选报文、理科与对外语的兴趣有关”.
独立性分析的综合应用
[例3] 为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.下表1和表2分别是注射药物A和药物B后的试验结果.(疱疹面积单位:
mm2)
表1:
注射药物A后皮肤疱疹面积的频数分布表
疱疹面积
[60,65)
[65,70)
[70,75)
[75,80)
频数
20
10
表2:
注射药物B后皮肤疱疹面积的频数分布表
[80,85)
25
15
完成下面2×
2列联表,并回答是否有99%的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.
表3:
小于70mm2
疱疹面积不
注射药物A
a=
b=
注射药物B
c=
d=
[解]
a=70
b=30
100
c=35
d=65
105
200
≈24.56>
因此,有99%的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.
在绘制列联表时,应对问题中的不同数据分成不同的类别,然后列表.要注意列联表中各行、各列中数据的意义及书写格式.
3.已知某班n名同学的数学测试成绩(单位:
分,满分100分)的频率分布直方图如图所示,其中a,b,c成等差数列,且成绩在[90,100]内的有6人.
(1)求n的值;
(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析是否有90%的把握认为“本次测试的及格情况与性别有关”?
附:
P(χ2≥k0)
k0
(1)依题意得
解得b=0.01.
因为成绩在[90,100]内的有6人,
所以n=
=60.
(2)由于2b=a+c,而b=0.01,可得a+c=0.02,则不及格的人数为0.02×
10×
60=12,及格的人数为60-12=48,
设及格的人中,女生有x人,则男生有x-4人,
于是x+x-4=48,解得x=26,
故及格的人中,女生有26人,男生有22人.
于是本次测试的及格情况与性别的2×
2列联表如下:
及格
不及格
男
8
女
26
4
48
12
60
结合列联表计算可得χ2=
=1.667<
2.706,故没有90%的把握认为“本次测试的及格情况与性别有关”.
解题高手
多解题
在调查的480名男人中,有38名患色盲,520名女人中,有6名患色盲.试判断人的性别与患色盲是否有关?
你所得到的结论在什么范围内有效?
[解] 由题意作2×
色盲
非色盲
38
442
480
6
514
520
44
956
1000
法一:
由列联表中数据可知,在调查的男人中,患色盲的比例是
≈7.917%,女人中患色盲的比例为
≈1.154%,由于两者差距较大,因而我们可以认为性别与患色盲是有关系的.
法二:
由列联表中所给的数据可知,
a=38,b=442,c=6,d=514,
a+b=480,c+d=520,a+c=44,b+d=956,n=1000,
代入公式得
≈27.1.
由于χ2≈27.1>
所以我们有99%的把握即在犯错误不超过0.01的前提下认为性别与患色盲有关系.
这个结论只对所调查的480名男人和520名女人有效.
1.下面是2×
y1
y2
x1
21
x2
2
27
46
则表中a,b的值分别为( )
A.94,96 B.52,50
C.52,54D.54,52
解析:
选C ∵a+21=73,∴a=52.
又∵a+2=b,∴b=54.
2.下列关于χ2的说法中正确的是( )
A.χ2在任何相互独立问题中都可以用于检验是否相关
B.χ2的值越大,两个事件的相关性越大
C.χ2是用来判断两个相互独立事件相关与否的一个统计量,它可以用来判断两个事件是否相关这一类问题
D.χ2=
答案:
C
3.对于因素X与Y的随机变量χ2的值,下列说法正确的是( )
A.χ2越大,“X与Y有关系”的可信程度越小
B.χ2越小,“X与Y有关系”的可信程度越小
C.χ2越接近于0,“X与Y没有关系”的可信程度越小
D.χ2越大,“X与Y没有关系”的可信程度越大
选B χ2越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大.即χ2越小,“X与Y有关系”的可信程度越小.
4.若由一个2×
2列联表中的数据计算得χ2的观测值为4.013,那么在犯错误的概率不超过________的前提下,认为两个变量之间有关系.
因为4.013>
3.841,所以在犯错误的概率不超过0.05的前提下,认为两个变量之间有关系.
5.某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数如下:
阳性例数
阴性例数
新
70
75
旧
18
28
88
通过数据分析,说明有________的把握认为新防护服对预防工人职业性皮炎有效.
≈13.826>
故有99%的把握说,新防护服比旧防护服对预防工人职业性皮炎有效.
99%
6.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了如下的列联表:
喜爱打篮球
不喜爱打篮球
男生
b=5
女生
c=10
已知在全部50人中随机抽取1人抽到爱打篮球的学生的概率为
(1)请将上面的列联表补充完整;
(2)是否有99%的把握认为喜爱打篮球与性别有关;
请说明理由.
附参考公式:
,
其中n=a+b+c+d.
(1)列联表补充如下:
(2)∵χ2=
≈8.333>
∴有99%的把握认为喜爱打篮球与性别有关.
一、选择题
1.有两个因素X与Y的一组数据,由其列联表计算得χ2≈4.523,则认为X与Y有关系是错误的可信度为( )
A.95% B.90%
C.5%D.10%
选C ∵χ2≥3.841.∴X与Y有关系的概率为95%,∴X与Y有关系错误的可信度为5%.
2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
爱好
不爱好
110
计算得,
≈7.8.
附表:
0.050
参照附表,得到的正确结论是( )
A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
C.有99%以上的把握认为“爱好该项运动与性别有关”
D.有99%以上的把握认为“爱好该项运动与性别无关”
选C 根据独立性分析的思想方法,正确选项为C.
3.某高校“统计初步”课程的老师随机调查了选该课的一些学生情况,具体数据如下表:
非统计专业
统计专业
13
7
为了分析主修统计专业是否与性别有关,根据表中的数据,得到χ2=
≈4.84,所以断定主修统计专业与性别有关系,这种判断出错的可能性为( )
A.0.025B.0.05
C.0.975D.0.95
选B ∵χ2≈4.84>
3.841,所以我们有95%的把握认为主修统计专业与性别无关,即判断出错的可能性为0.05.
4.已知P(x2≥2.706)=0.10,两个因素X和Y,取值分别为{x1,x2}和{y1,y2},其样本频数分别是a=10,b=21,c+d=35.若在犯错误的概率不超过0.1的前提下,认为X与Y有关系,则c等于( )
A.5B.6
C.7D.8
选A 经分析,c=5.
二、填空题
5.班级与成绩2×
优秀
不优秀
甲班
35
45
乙班
p
m
n
q
表中数据m,n,p,q的值应分别为________.
m=10+7=17,
n=35+38=73,
p=7+38=45,
q=m+n=90.
17,73,45,90
6.在吸烟与患肺病是否相关的判断中,有下面的说法:
①若χ2>
6.64,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;
②从独立性分析可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;
③从独立性分析可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.
其中说法正确的是________.
χ2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;
说法②中对“确定容许推断犯错误概率的上界”理解错误;
说明③正确.
③
7.统计推断,当________时,在犯错误的概率不超过0.05的前提下认为事件A与B有关;
当________时,认为没有充分的证据显示事件A与B是有关的.
当k>
3.841时,就有在犯错误的概率不超过0.05的前提下认为事件A与B有关,当k<2.706时认为没有充分的证据显示事件A与B是有关的.
k>
3.841 k<2.706
8.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:
文艺节目
新闻节目
20至40岁
40
58
大于40岁
42
由表中数据直观分析,收看新闻节目的观众是否与年龄有关:
________(填“是”或“否”).
因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即
=
,两者相差较大,所以,经直观分析,收看新闻节目的观众与年龄是有关的.
是
三、解答题
9.某市对该市一重点中学2018年高考上线情况进行统计,随机抽查得到表格:
语文
数学
英语
综合科目
上线
不上线
总分上线201人
174
178
23
176
175
总分不上线43人
19
17
204
201
43
试求各科上线与总分上线之间的关系,并求出哪一科目与总分上线关系最大?
对于上述四个科目,分别构造四个随机变量
χ
,χ
由表中数据可以得到:
语文:
=7.294>
6.64,
数学:
=30.008>
英语:
=24.155>
综合科目:
=17.264>
6.64.
所以有99%的把握认为语文、数学、英语、综合科目上线与总分上线有关系,数学上线与总分上线关系最大.
10.一次对人们休闲方式的调查中共调查了124人,其中女性70人,男性54人,女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;
男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.
(1)根据以上数据建立一个2×
2列联表;
(2)能否在犯错误的概率不超过0.05的前提下认为性别与休闲方式有关系?
(1)2×
休闲方式
性别
看电视
运动
33
64
124
(2)假设休闲方式与性别无关,由公式得
≈6.201.
因为6.201>
3.841,所以有理由认为假设休闲方式与性别无关是不合理的,即在犯错误的概率不超过0.05的前提下认为休闲方式与性别有关.