第一章12独立性检验的基本思想及其初步应用.docx
《第一章12独立性检验的基本思想及其初步应用.docx》由会员分享,可在线阅读,更多相关《第一章12独立性检验的基本思想及其初步应用.docx(11页珍藏版)》请在冰豆网上搜索。
第一章12独立性检验的基本思想及其初步应用
第一章统计案例
1.2独立性检验的基本思想及其初步应用
A级 基础巩固
一、选择题
1.给出下列实际问题,其中不可以用独立性检验解决的是( )
A.喜欢参加体育锻炼与性别是否有关
B.喝酒者得胃病的概率
C.喜欢喝酒与性别是否有关
D.青少年犯罪与上网成瘾是否有关
解析:
独立性检验主要是对两个分类变量是否有关进行检验,故不可用独立性检验解决的问题是B.
答案:
B
2.下面是调查某地区男女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图中可以看出( )
A.性别与喜欢理科无关
B.女生中喜欢理科的比为80%
C.男生比女生喜欢理科的可能性大些
D.男生不喜欢理科的比为60%
解析:
由等高条形图知:
女生喜欢理科的比例为20%,男生不喜欢理科的比例为40%,因此,B、D不正确.从图形中,男生比女生喜欢理科的可能性大些.
答案:
C
3.在研究打鼾与患心脏病之间的关系中,通过收集数据、整理分析数据得到“打鼾与患心脏病有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的.下列说法中正确的是( )
A.100个心脏病患者中至少有99人打鼾
B.1个人患心脏病,则这个人有99%的概率打鼾
C.100个心脏病患者中一定有打鼾的人
D.100个心脏病患者中可能一个打鼾的人都没有
解析:
这是独立性检验,在犯错误的概率不超过0.01的前提下认为“打鼾与患心脏病有关”.这只是一个概率,即打鼾与患心脏病有关的可能性为99%.根据概率的意义可知答案应选D.
答案:
D
4.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:
分类
作文成绩优秀
作文成绩一般
总计
课外阅读量较大
22
10
32
课外阅读量一般
8
20
28
总计
30
30
60
由以上数据,计算得到K2的观测值k≈9.643,根据临界值表,以下说法正确的是( )
A.没有充足的理由认为课外阅读量大与作文成绩优秀有关
B.有0.5%的把握认为课外阅读量大与作文成绩优秀有关
C.有99.9%的把握认为课外阅读量大与作文成绩优秀有关
D.有99.5%的把握认为课外阅读量大与作文成绩优秀有关
解析:
根据临界值表,9.643>7.879,在犯错误的概率不超过0.005的前提下,认为课外阅读量大与作文成绩优秀有关,即有99.5%的把握认为课外阅读量大与作文成绩优秀有关.
答案:
D
5.(2014·江西卷)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )
表1
性别
成绩
总计
不及格
及格
男
6
14
20
女
10
22
32
总计
16
36
52
表2
性别
视力
总计
好
差
男
4
16
20
女
12
20
32
总计
16
36
52
表3
性别
智商
总计
偏高
正常
男
8
12
20
女
8
24
32
总计
16
36
52
表4
性别
阅读量
总计
丰富
不丰富
男
14
6
20
女
2
30
32
总计
16
36
52
A.成绩B.视力
C.智商D.阅读量
解析:
根据K2=
,代入题中数据计算得D选项K2最大.
答案:
D
二、填空题
6.独立性检验所采用的思路是:
要研究X,Y两个分类变量彼此相关,首先假设这两个分类变量彼此________,在此假设下构造随机变量K2.如果K2的观测值较大,那么在一定程度上说明假设________.
解析:
独立性检验的前提是假设两个分类变量无关系,然后通过随机变量K2的观测值来判断假设是否成立.
答案:
无关系 不成立
7.某高校《统计初步》课程的教师随机调查了选该课的一些学生的情况,具体数据如表:
性别
非统计专业
统计专业
男生
13
10
女生
7
20
为了检验主修统计专业是否与性别有关系,根据表中的数据得到随机变量K2的观测值为k=
≈4.844.因为k>3.841,所以确认“主修统计专业与性别有关系”,这种判断出现错误的可能性为________.
解析:
因为随机变量K2的观测值k>3.841,所以在犯错误的概率不超过0.05的前提下认为“主修统计专业与性别有关系”.故这种判断出现错误的可能性为5%.
答案:
5%
8.对某校小学生进行心理障碍测试得到的列联表
分类
有心理障碍
没有心理障碍
总计
女生
10
20
30
男生
10
70
80
总计
20
90
110
试说明心理障碍与性别的关系:
________.
解析:
由2×2列联表,代入计算k2的观测值k=
=
≈6.3657.
因为6.3657>5.024,所以在犯错误的概率不超过0.025的前提下认为心理障碍与性别有关系.
答案:
在犯错误的概率不超过0.025的前提下认为心理障碍与性别有关系.
三、解答题
9.下表是某地区的一种传染病与饮用水的调查表:
分类
得病
不得病
总计
干净水
52
466
518
不干净水
94
218
312
总计
146
684
830
(1)这种传染病是否与饮用水的卫生程度有关,请说明理由;
(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种传染病是否与饮用水有关,并比较两种样本在反映总体时的差异.
附表:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
解:
(1)把表中数据代入公式,得
K2=
≈54.21.
因为54.21>10.828,
所以有99.9%的把握认为该地区这种传染病与饮用不干净水有关.
(2)依题意得2×2列联表:
分类
得病
不得病
总计
干净水
5
50
55
不干净水
9
22
31
总计
14
72
86
把表中数据代入公式,
得K2=
≈5.785,
因为5.785>3.841,
所以我们有95%的把握认为该地区这种传染病与饮用不干净水有关.
两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但可信度不同,
(1)中有99.9%的把握肯定结论的正确性,
(2)中有95%的把握肯定结论的正确性.
10.调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据:
出生时间在晚上的男婴为24人,女婴为8人;出生时间在白天的男婴为31人,女婴为26人.
(1)将2×2列联表补充完整.
性别
出生时间
总计
晚上
白天
男婴
女婴
总计
(2)能否在犯错误的概率不超过0.1的前提下认为婴儿性别与出生时间有关系?
解:
(1)列2×2列联表:
性别
出生时间
总计
晚上
白天
男婴
24
31
55
女婴
8
26
34
总计
32
57
89
(2)由所给数据计算K2的观测值
k=
≈3.689>2.706.
根据临界值表知P(K2≥2.706)≈0.10.
因此在犯错误的概率不超过0.1的前提下认为婴儿的性别与出生的时间有关系.
B级 能力提升
1.通过随机询问100名性别不同的大学生是否爱好某项运动,得到如下的列联表:
分类
男
女
总计
爱好
38
32
70
不爱好
25
5
30
总计
63
37
100
则下列结论正确的是( )
A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
C.有99%以上的把握认为“爱好该项运动与性别有关”
D.有99%以上的把握认为“爱好该运动与性别无关”
解析:
由2×2列联表,得K2的观测值
k=
≈7.601>6.635.
又由P(K2≥6.635)≈0.01,知选项C正确.
答案:
C
2.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:
“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K2≈3.918,经查临界值表知P(K2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.
①在犯错误的概率不超过0.05的前提下认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的效率为5%.
解析:
由独立性检验的思想方法,知①正确.
答案:
①
3.“开门大吉”是某电视台推出的游戏节目,选手面对1~8号8扇大门,依次按响门上的门铃,门铃会播放一段音乐(将一首经典流行歌曲以单音色旋律的方式演绎),选手需正确回答出这首歌的名字,方可获得该扇门对应的家庭梦想基金.在一次场外调查中,发现参赛选手多数分为两个年龄段:
20~30;30~40(单位:
岁).其猜对歌曲名称与否的人数如图所示.
(1)写出2×2列联表;判断能否在犯错误的概率不超过0.10的前提下认为猜对歌曲名称与年龄有关系,说明你的理由.(下面的临界值表供参考)
P(K2≥k0)
0.10
0.05
0.010
0.005
k0
2.706
3.841
6.635
7.879
(2)现计划在这次场外调查中按年龄段用分层抽样的方法选取6名选手,求20~30岁与30~40岁各有几人.
参考公式:
K2=
,其中n=a+b+c+d.
解析:
(1)根据所给的二维条形图得到列联表:
分类
正确
错误
总计
20~30岁
10
30
40
30~40岁
10
70
80
总计
20
100
120
根据列联表所给的数据代入观测值的公式得到
k=
=3.
因为3>2.706,
所以在犯错误的概率不超过0.10的前提下认为猜对歌曲名称与年龄有关系.
(2)按照分层抽样方法可知,
20~30岁年龄段抽取:
6×
=2(人);
30~40岁年龄段抽取:
6×
=4(人).
在上述抽取的6名选手中,年龄在20~30岁的有2人,年龄在30~40岁的有4人.