高二数学 12独立性检验的基本思想及其初步应用练习 新人教A版选修12.docx
《高二数学 12独立性检验的基本思想及其初步应用练习 新人教A版选修12.docx》由会员分享,可在线阅读,更多相关《高二数学 12独立性检验的基本思想及其初步应用练习 新人教A版选修12.docx(20页珍藏版)》请在冰豆网上搜索。
高二数学12独立性检验的基本思想及其初步应用练习新人教A版选修12
1.2 独立性检验的基本思想及其初步应用
1.分类变量的定义.
如果某种变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
2.2×2列联表.
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
3.独立性检验.
1.下列变量中不属于分类变量的是(B)
A.性别 B.吸烟
C.宗教信仰D.国籍
解析:
“吸烟”不是分类变量,“是否吸烟”才是分类变量.故选B.
2.下面是一个2×2列联表
y1
y2
合计
x1
a
21
73
x2
2
25
27
合计
b
46
100
则表中a、b的值分别为(C)
A.94、96B.52、50
C.52、54D.54、52
解析:
由a+21=73,得a=52,由b+46=100,得b=54.
3.某高校“统计初步”课程的教师随机调查了选修该课程的一些学生情况,具体数据如下表:
为了判断主修统计专业是否与性别有关系,根据表中的数据,得到K2=
≈4.844>3.841,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为____________.
解析:
P(K2>3.841)=0.05,判断出错的可能性为5%.
答案:
5%
通过案例理解分类变量、列联表、独立性检验的含义,利用列联表的独立性检验进行估计.
独立性检验的基本思想,随机变量K2的含义.
(1)直观分析的两种方法.
①频率分析.
通过对样本的每个分类变量的不同类别和事件发生的频率的大小比较来分析变量之间是否有关系,通常通过列联表列出两个分类变量进行分析.
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
y
x
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
在列联表中,如果两个分类变量没有关系,则应该满足ad-bc≈0.因此|ad-bc|越小,说明两个分量之间的关系越弱;|ad-bc|越大,说明两个分类变量之间的关系越强.
②图形分析.
利用等高条形图来分析两分类变量之间是否具有相关关系,形象、直观地反映两个分类变量之间的总体状态和差异大小,进而推断它们之间是否有关系.
a.绘制等高条形图时,列联表的行对应的是高度,两行的数据不相等,但对应的条形图的高度是相同的,两列的数据对应不同颜色.b.等高条形图中有两个高度相同的矩形,每一个矩形中都有两种颜色,观察下方颜色区域的高度,如果两个高度相差比较明显
,就判断两个分类变量之间有关系.
(2)独立性检验及其基本思想.
①独立性检验.
利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.
利用上诉公式求出K2的观测值为
k=
.
再得出X与Y有关系的程度,通常用到以下数据:
(i)如果k>6.635,在犯错误的概率不超过0.01的前提下认为X与Y有关系;
(ii)如果k>2.706,在犯错误的概率不超过0.1的前提下认为X与Y有关系;
值得注意的是:
观察值k越大,越有利于结论“X和Y有关系”,越小越有利于结论“X和Y没有关系”.因此,可以建立一定的规则:
当k≥k0时就说X与Y有关系,k<k0时就说X和Y没有关系,故求得观测值后只要与建立的规则进行比较即可得出结论.
②独立性检验的基本思想.
独立性检验的基本思想是要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设该结论不成立,即假设“两个分类变量没有关系”成立,在该假设下我们构造的随机变量K2应该很小,如果由观察数据计算得到K2的观测值k很大,则在一定程度上说明假设不合理,根据随机变量K2的含义,可以通过P(k≥6.635)≈0.01来评价假设不合理的程度,由实际计算出k>6.635,说明假设不合理的程度约为99%,即两个分类变量有关系这一结论成立的可信度为99%,不合理的程度可查下表得出:
1.独立性检验是对两个分类变量间是否有关系的一种案例分析方法,其分析方法有:
等高条形图法和利用假设的思想方法,计算出某一个随机变量K2的观测值来进行判断.
2.在等高条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例为
,也可以估计满足条件X=x2的个体中具有Y=y2的个体
所占的比例为
,两个比例的值相差越大,两个分类变量相关的可能性就越大.
3.独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表;
(2)根据公式K2=
计算K2的观测值;
(3)比较K2与临界值的大小关系作统计推断.
1.在等高条形图形中,下列哪两个比值相差越大,“两个分类变量有关系”成立的可能性越大(C)
A.
与
B.
与
C.
与
D.
与
2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表;
男
女
合计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
由K2=
算得,
K2=
≈7.8.
附表:
P(F2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
参照附表,得到的正确结论是(A)
A.有99%以上的把握认为“爱好该项运动与性别有关”
B.有99%以上的把握认为“爱好该项运动与性别无关”
C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
3.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体数据如下表:
专业
性别
非统计专业
统计专业
男
13
10
女
7
20
为了判断主修统计专业是否与性别有关系,根据表中数据得到,
k=
≈4.844,因为k>3.841,所以确定主修统计专业与性别有关系,那么这种判断出错的可能性为________.
解析:
∵k=4.844>3.841,∴有95%的把握可以确定主修统计专业与性别有关,那么这种判断出错的可能性为5%.
答案:
5%
1.在研究两个分类变量之间是否有关系时,可以粗略地判断两个分类变量是否有关的是(B)
A.散点图B.等高条形图
C.2×2列联表D.以上均不对
2.对分类变量X与Y的随机变量K2的观测值k,说法正确的是(B)
A.k越大,“X与Y有关系”可信程度越小
B.k越小,“X与Y有关系”可信程度越小
C.k越接近0,“X与Y无关”程度越小
D.k越大,“X与Y无关”程度越大
3.下面是一个2×2列联表:
y1
y2
总计
x1
52
21
73
x2
2
a
b
总计
54
46
100
则表中a、b的值分别是(C)
A.94、96B.25、21
C.25、27D.27、25
4.分类变量x和y的列联表如下,则(C)
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
A.ad-bc越小,说明x与y的关系越弱
B.ad-bc越大,说明x与y的关系越弱
C.(ad-bc)2越大,说明x与y的关系越强
D.(ad-bc)2越小,说明x与y的关系越强
解析:
由K2=
知,(ad-bc)2越大,K2值越大,说明x与y的关系越强.
5.某班主任对全班50名学生进行了作业量多少的调查,数据如下表:
认为作业多
认为作业不多
总数
喜欢玩电
脑游戏
18
9
27
不喜欢玩
电脑游戏
8
15
23
总数
26
24
50
则认为喜欢玩电脑游戏与认为作业多少有关系的把握大约为(B)
A.99%B.95%
C.90%D.无充分依据
解析:
由表中数据计算
K2=
≈5.059,
而K2=5.059>3.841,所以约有95%的把握认为两变量之间有关.
6.为了探究电离辐射的剂量与人体的受损程度是否有关,用两种不同剂量的电离辐射照射小白鼠,在照射后14天内的结果如下表所示:
死亡
存活
合计
第一种剂量
14
11
25
第二种剂量
6
19
25
合计
20
30
50
进行统计分析时的统计假设是________.
解析:
根据独立性检验的基本思想,可知其类似反证法,即要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设结论不成立,即假设结论“两个分类变量没有关系”成立,对本题,进行统计分析时的统计假设应是“小白鼠的死亡与剂量无关”.
答案:
小白鼠的死亡与剂量无关
7.(2013·韶关二模)以下四个命题中:
①在一次试卷分析中,从每个试室中抽取第5号考生的成绩进行统计,是简单随机抽样;
②样本数据3,4,5,6,7的方差为2;
③对于相关系数r。
|r|越接近1,则线性相关程度越强;
④通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下列联表:
男
女
总计
走天桥
40
20
60
走斑马线
20
30
50
总计
60
50
110
由K2=
可得,
K2=
=7.8,则有99%以上的把握认为“选择过马路方式与性别有关”.
附表:
P(K2≥k0)
0.05
0.010
0.001
k0
3.841
6.635
10.828
其中正确命题的序号是________.
答案:
②③④
8.某学校为了调查喜欢语文学科与性别的关系,随机调查了一些学生情况,具体数据如下表:
类别
性别
不喜欢语文
喜欢语文
男
13
10
女
7
20
为了判断喜欢语文学科是否与性别有关系,根据表中的数据,得到K2的观测值k=
≈4.844,因为k≥3.841,根据下表中的参考数据:
P(K2≥k0)
0.50
0.40
0.25
0.15
0.10
k0
0.455
0.708
1.323
2.072
2.706
P(K2≥k0)
0.05
0.025
0.010
0.005
0.001
k0
3.841
5.024
6.635
7.879
10.828
判定喜欢语文学科与性别有关系,那么这种判断出错的可能性为________.
答案:
5%
9.调查某班学生,按性别和籍贯分类得调查表如下:
天津
非天津
合计
男
12
28
40
女
6
19
25
合计
18
47
65
性别对籍贯的影响中,可信度小于________.
解析:
k=
≈0.277
∵0.277<0.455,∴查表可知小于0.50.
答案:
50%
10.在对人们休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人,女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动,你能否判断性别与休闲方式是否有关系?
解析:
首先建立列联表如下
休闲方式为看电视
休闲方式为运动
合计
女性
43
27
70
男性
21
33
54
合计
64
60
124
∵a=43,b=27,a+b=70,c=21,d=33,c+d=54,
a+b+c+d=124,a+c=64,b+d=60,
∴k=
=
≈6.201>5.024,
即有97.5%的把握认为休闲方式与性别有关.
11.(2013·深圳二模)2013年3月14日,CCTV财经频道报道了某地建筑市场存在违规使用未经淡化海砂的现象.为了研究使用淡化海砂与混凝土耐久性是否达标有关,某大学实验室随机抽取了60个样本,得到了相关数据如下表:
混凝土耐
久性达标
混凝土耐
久性不达标
总计
使用淡化海砂
25
5
30
使用未经淡化海砂
15
15
30
总计
40
20
60
(1)根据表中数据,利用独立性检验的方法判断,能否在犯错误的概率不超过1%的前提下,认为使用淡化海砂与混凝土耐久性是否达标有关?
(2)若用分层抽样的方法在使用淡化海砂的样本中抽取了6个,现从这6个样本中任取2个,则取出的2个样本混凝土耐久性都达标的概率是多少?
参考数据:
P(K2≥k)
0.10
0.050
0.025
0.010
0.001
k
2.706
3.841
5.024
6.635
10.828
解析:
(1)提出假设H0:
使用淡化海砂与混凝土耐久性是否达标无关.
根据表中数据,求得K2的观测值
k=
=7.5>6.635.
查表得P(K2≥6.635)=0.010.
∴能在犯错误的概率不超过1%的前提下,认为使用淡化海砂与混凝土耐久性是否达标有关.
(2)用分层抽样的方法在使用淡化海砂的样本中抽取6个,其中应抽取“混凝土耐久性达标”的为
×6=5,“混凝土耐久性不达标”的为6-5=1,
“混凝土耐久性达标记”为A1,A2,A3,A4,A5”;“混凝土耐久性不达标”的记为B.
在这6个样本中任取2个,有以下几种可能:
(A1,A2),(A1,A3),(A1,A4),(A1,A5),(A1,B),(A2,A3),(A2,A4),(A2,A5),(A2,B),(A3,A4),(A3,A5),(A3,B),(A4,A5),(A4,B)(A5,B),共15种.
设“取出的2个样本混凝土耐久性都达标”为事件A,它的对立事件
为“取出的2个样本至少有1个混凝土耐久性不达标”,包含(A1,B),(A2,B),(A3,B),(A4,B),(A5,B),共5种可能.
∴P(A)=1-P(
)=1-
=
.
即取出的2个样本混凝土耐久性都达标的概率是
.
12.某食品厂为了检查甲、乙两条自动包装流水线的生产情况,随机在这两条流水线上各抽取40件产品作为样本称出它们的重量(单位:
克),重量值落在(495,510]的产品为合格品,否则为不合格品.左下表是甲流水线样本频数分布表,右下图是乙流水线样本的频率分布直方图.
甲流水线样本频数分布表
(1)根据上表数据作出甲流水线样本的频率分布直方图;
(2)若以频率作为概率,试估计从两条流水线分别任取1件产品,该产品恰好是合格品的概率;
(3)由以上统计数据完成下面2×2列联表,能否在犯错误的概率不超过0.1的前提下认为产品的包装质量与两条自动包装流水线的选择有关?
甲流水线
乙流水线
合计
合格品
a=
b=
不合格品
c=
d=
合计
n=
附:
K2=
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
解析:
(1)甲流水线样本的频率分布直方图如下:
(2)由题表知甲样本中合格品数为8+14+8=30,由题图知乙样本中合格品数为(0.06+0.09+0.03)×5×40=36,故甲样本合格品的频率为
=0.75,乙样本合格品的频率为
=0.9.
据此可估计从甲流水线任取1件产品,该产品恰好是合格品的概率为0.75.从乙流水线任取1件产品,该产品恰好是合格品的概率为0.9.
(3)2×2列联表如下:
甲流水线
乙流水线
合计
合格品
a=30
b=36
66
不合格品
c=10
d=4
14
合计
40
40
n=80
∵K2=
=
≈3.117>2.706.
∴在犯错误的概率不超过0.1的前提下认为产品的包装质量与两条自动包装流水线的选择有关.
►品味高考
1.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老人,结果如下:
性别
是否需要志愿者
男
女
需要
40
30
不需要
160
270
(1)估计该地区老年人中需要志愿者提供帮助的老年人的比例.
(2)能否在犯错误的概率不超过0.01的前提下认为该地区的老年人是否需要志愿者提供帮助与性别有关?
(3)根据
(2)的结论,能否提出更好的调查办法来估计该地区的老年人中需要志愿者提供帮助的老年人的比例?
说明理由.
附:
K2=
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
解析:
(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中需要帮助的老年人的比例的估计值为
=14%.
(2)K2的观测值k=
≈9.967,由于9.967>6.635,所以在犯错误的概率不超过0.01的前提下认为该地区的老年人是否需要志愿者提供帮助与性别有关.
(3)由
(2)的结论知,该地区的老年人是否需要志愿者提供帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要志愿者提供帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法抽样调查,比采用简单随机抽样方法抽样调查更好.
2.(2014·辽宁卷)某大学餐饮中心为了了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:
喜欢甜品
不喜欢甜品
合计
南方学生
60
20
80
北方学生
10
10
20
合计
70
30
100
(1)根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”;
(2)已知在被调查的北方学生中有5名数学系学生,其中2名习惯甜品,现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.
附:
K2=
P(K2≥k0)
0.10
0.05
0.010
0.005
k0
2.706
3.841
6.635
7.879
解析:
(1)将2×2列联表中的数据代入公式计算.得
K2=
=
=
≈4.762.
由于4.762>3.841.
所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
(2)从5名数学系的学生任取3人的一切可能结果所组成的基本事件空间
Ω={(a1,a2,b1),(a1,a2,b2),(a1,a2,b3),(a1,b1,b2),(a1,b2,b3),(a1,b1,b3),(a2,b1,b2),(a2,b2,b3),(a2,b1,b3),(b1,b2,b3)}.
其中a2表示喜欢甜品的学生i=1,2.bj表示不喜欢甜品的学生,j=1,2,3.
Ω由10个基本事件组成,且这些基本事件出现是等可能的.
用A表示“3人中至多有1人喜欢甜品”这一事件,则
A={(a1,b1,b2),(a1,b2,b3),(a1,b1,b3),(a2,b1,b2),(a2,b2,b3),(a2,b1,b3),(b1,b2,b3)}.
事件A是由7个基本事件组成.因而P(A)=
.