《创新设计》同步人教A版选修1212数学统计案例.docx
《《创新设计》同步人教A版选修1212数学统计案例.docx》由会员分享,可在线阅读,更多相关《《创新设计》同步人教A版选修1212数学统计案例.docx(17页珍藏版)》请在冰豆网上搜索。
《创新设计》同步人教A版选修1212数学统计案例
明目标、知重点
1.了解分类变量的意义.2.了解2×2列联表的意义.3.了解随机变量K2的意义.4.通过对典型案例分析,了解独立性检验的基本思想和方法.
1.分类变量和列联表
(1)分类变量
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表
①定义:
列出的两个分类变量的频数表称为列联表.
②2×2列联表
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(也称为2×2列联表)为下表.
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
2.等高条形图
(1)等高条形图与表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.
(2)观察等高条形图发现
和
相差很大,就判断两个分类变量之间有关系.
3.独立性检验
(1)定义:
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
(2)K2=
,
其中n=a+b+c+d为样本容量.
(3)独立性检验的具体做法
①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.
②利用公式计算随机变量K2的观测值k.
③如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.
[情境导学]
5月31日是世界无烟日.有关医学研究表明,许多疾病,例如:
心脏病、癌症、脑血管病、慢性阻塞性肺病等都与吸烟有关,吸烟已成为继高血压之后的第二号全球杀手.这些疾病与吸烟有关的结论是怎样得出的呢?
探究点一 列联表和等高条形图
思考1 举例说明什么是分类变量?
答 变量的不同“值”表示个体所属的不同类别的变量称为分类变量,分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别,如性别变量,只取男、女两个值,商品的等级变量只取一级、二级、三级等等.
思考2 什么是列联表?
怎样从列联表判断两个分类变量有无关系?
答 一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},则两个变量的频数表,称为列联表(如下图)
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
|ad-bc|越小,说明两个分类变量x、y之间的关系越弱;
|ad-bc|越大,说明两个分类变量x、y之间的关系越强.
思考3 等高条形图对分析两个分类变量是否有关系,有何帮助?
答 通过画等高条形图,我们可以直观观察两个变量的比例关系,判断两个变量是否有关系.
例1某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人.调查结果是:
吸烟的220人中有37人患呼吸道疾病(简称患病),183人未患呼吸道疾病(简称未患病);不吸烟的295人中有21人患病,274人未患病.
根据这些数据能否断定“患呼吸道疾病与吸烟有关”?
(用列联表和等高条形图说明).
解
(1)作出列联表如下:
患病
未患病
总计
吸烟
37
183
220
不吸烟
21
274
295
总计
58
457
515
在吸烟的人中,有
≈16.82%的人患病,在不吸烟的人中,有
≈7.12%的人患病.由上可以看出,吸烟者中患病的比例与不吸烟者中患病的比例相比有很大的差异,故“患呼吸道疾病与吸烟可能有关”.
(2)画出等高条形图如下:
通过上面的等高条形图可以直观看出,吸烟者中患病的比例与不吸烟者中患病的比例相比有很大的差异,故“患呼吸道疾病与吸烟可能有关”.
反思与感悟 利用数形结合的思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法之一.一般地,在等高条形图中,
与
相差越大,两个分类变量有关系的可能性就越大.
跟踪训练1 在调查的480名男人中有38人患色盲,520名女人中有6名患色盲,试利用图形来判断色盲与性别是否有关?
解 根据题目给出的数据作出如下的列联表:
色盲
不色盲
总计
男
38
442
480
女
6
514
520
总计
44
956
1000
根据列联表作出相应的等高条形图:
从等高条形图来看在男人中患色盲的比例要比在女人中患色盲的比例大得多,因而,我们认为性别与患色盲是有关系的.
探究点二 独立性检验
思考1 利用列联表及等高条形图判断两个分类变量是否有关有什么优缺点?
答 优点:
比较直观.
缺点:
缺少精确性和可靠性.
思考2 随机变量K2有何作用?
答 利用随机变量K2=
(其中n=a+b+c+d为样本容量)可以来确定在多大程度上可以认为“两个分类变量有关系”.
思考3 独立性检验的基本思想是什么?
答 独立性检验的基本思想类似于数学中的反证法,要确认两个分类变量有关系这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下,用我们构造的随机变量K2的观测值应该很小,如果由观测数据计算得到的K2的观测值很大,则在一定程度上说明假设不合理,根据随机变量K2的含义,可以通过P(K2≥6.635)≈0.01来评价假设不合理的程度,由实际计算出K2>6.635,说明假设不合理的程度约为99%,即两个分类变量有关系这一结论成立的可信程度为99%.
例2在某医院,因为患心脏病而住院的665名男性病人中有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.
(1)利用图形判断秃顶与患心脏病是否有关系;
(2)能否在犯错误的概率不超过0.01的前提下认为秃顶与患心脏病有关系?
解
(1)根据题目所给的数据画出列联表:
患心脏病
患其他病
总计
秃顶
214
175
389
不秃顶
451
597
1048
总计
665
772
1437
相应的等高条形图如图所示:
比较来说,秃顶的病人中患心脏病的比例大一些,可以在某种程度上认为“秃顶与患心脏病有关”.
(2)根据列联表中的数据,得到
k=
≈16.373>6.635,
因此,在犯错误的概率不超过0.01的前提下认为秃顶与患心脏病有关系.
反思与感悟
(1)利用随机变量K2进行独立性检验的步骤:
①根据实际问题需要的可信度α确定临界值k0;
②根据给出数据计算得出随机变量K2的观测值k;
③如果k≥k0,就认为在犯错误的概率不超过α的前提下,认为两变量有关系;否则,认为两个分类变量没有关系.
(2)独立性检验能精确判断可靠程度,而等高条形图的优点是直观,但只可以粗略判断两个分类变量是否有关系,一般在通过图表判断后还需要用独立性检验来确认.
跟踪训练2 为了探究吸烟习惯与患慢性气管炎是否有关,调查了339名50岁以上的人,获数据如下:
患慢性气管炎
未患慢性气管炎
总计
吸烟
43
162
205
不吸烟
13
121
134
总计
56
283
339
吸烟习惯与患慢性气管炎是否相关?
试用独立性检验的思想说明理由.
解 根据列联表的数据得到K2的观测值:
k=
=
≈7.469>6.635,
所以,在犯错误的概率不超过0.01的前提下认为“吸烟习惯与患慢性气管炎有关”.
1.观察下列各图,其中两个分类变量x,y之间关系最强的是( )
答案 D
2.下面是一个2×2列联表:
y1
y2
总计
x1
a
21
73
x2
8
25
33
总计
b
46
则表中a、b处的值分别为( )
A.94,96B.52,50
C.52,60D.54,52
答案 C
解析 ∵a+21=73,∴a=52,b=a+8=52+8=60.
3.经过对K2的统计量的研究,得到了若干个临界值,当K2的观测值k>3.841时,我们( )
A.在犯错误的概率不超过0.05的前提下可认为A与B有关
B.在犯错误的概率不超过0.05的前提下可认为A与B无关
C.在犯错误的概率不超过0.01的前提下可认为A与B有关
D.没有充分理由说明事件A与B有关系
答案 A
4.根据下表计算:
不看电视
看电视
男
37
85
女
35
143
K2的观测值k≈________.(保留3位小数)
答案 4.514
解析 k=
≈4.514.
[呈重点、现规律]
1.列联表与等高条形图
列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有关联关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有关联关系.
2.对独立性检验思想的理解
独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量K2的值,如果K2值很大,说明假设不合理.K2越大,两个分类变量有关系的可能性越大.
一、基础过关
1.下面说法正确的是( )
A.统计方法的特点是统计推断准确、有效
B.独立性检验的基本思想类似于数学上的反证法
C.任何两个分类变量有关系的可信度都可以通过查表得到
D.不能从等高条形图中看出两个分类变量是否相关
答案 B
2.用独立性检验来考察两个分类变量x与y是否有关系,当统计量K2的观测值( )
A.越大,“x与y有关系”成立的可能性越小
B.越大,“x与y有关系”成立的可能性越大
C.越小,“x与y没有关系”成立的可能性越小
D.与“x与y有关系”成立的可能性无关
答案 B
3.在一个2×2列联表中,由其数据计算得K2的观测值k=7.097,则这两个变量间有关系的可能性为( )
A.99%B.99.5%
C.99.9%D.无关系
答案 A
解析 K2的观测值6.635所以有99%的把握认为两个变量有关系.
4.对两个分类变量A、B的下列说法中正确的个数为( )
①A与B无关,即A与B互不影响;
②A与B关系越密切,则K2的值就越大;
③K2的大小是判定A与B是否相关的唯一依据
A.1B.2
C.3D.4
答案 A
解析 ①正确,A与B无关即A与B相互独立;②不正确,K2的值的大小只是用来检验A与B是否相互独立;③不正确,也可借助三维柱形图、二维条形图等.故选A.
5.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:
作文成绩优秀
作文成绩一般
总计
课外阅读量较大
22
10
32
课外阅读量一般
8
20
28
总计
30
30
60
由以上数据,计算得到K2的观测值k≈9.643,根据临界值表,以下说法正确的是( )
A.没有充足的理由认为课外阅读量大与作文成绩优秀有关
B.有0.5%的把握认为课外阅读量大与作文成绩优秀有关
C.有99.9%的把握认为课外阅读量大与作文成绩优秀有关
D.有99.5%的把握认为课外阅读量大与作文成绩优秀有关
答案 D
解析 根据临界值表,9.643>7.879,在犯错误的概率不超过0.005的前提下,认为课外阅读量大与作文成绩优秀有关,即有99.5%的把握认为课外阅读量大与作文成绩优秀有关.
6.如果K2的观测值为6.645,可以认为“x与y无关”的可信度是________.
答案 1%
解析 查表可知可信度为1%.
7.在某测试中,卷面满分为100分,60分为及格,为了调查午休对本次测试前两个月复习效果的影响,特对复习中进行午休和不进行午休的考生进行了测试成绩的统计,数据如下表所示:
分数段
29~40
41~50
51~60
61~70
71~80
81~90
91~100
午休考生人数
23
47
30
21
14
31
14
不午休考生人数
17
51
67
15
30
17
3
(1)根据上述表格完成列联表:
及格人数
不及格人数
总计
午休
不午休
总计
(2)根据列联表可以得出什么样的结论?
对今后的复习有什么指导意义?
解
(1)根据题表中数据可以得到列联表如下:
及格人数
不及格人数
总计
午休
80
100
180
不午休
65
135
200
总计
145
235
380
(2)计算可知,午休的考生及格率为P1=
=
,不午休的考生的及格率为P2=
=
,则P1>P2,因此,可以粗略判断午休与考生考试及格有关系,并且午休的及格率高,所以在以后的复习中考生应尽量适当午休,以保持最佳的学习状态.
二、能力提升
8.在等高条形图中,下列哪两个比值相差越大,要推断的论述成立的可能性就越大( )
A.
与
B.
与
C.
与
D.
与
答案 C
解析 由等高条形图可知
与
的值相差越大,|ad-bc|就越大,相关性就越强.
9.考察棉花种子经过处理跟生病之间的关系得到下表数据:
种子处理
种子未处理
总计
得病
32
101
133
不得病
61
213
274
总计
93
314
407
根据以上数据,可得出( )
A.种子是否经过处理跟是否生病有关
B.种子是否经过处理跟是否生病无关
C.种子是否经过处理决定是否生病
D.以上都是错误的
答案 B
解析 由k=
≈0.164<2.706,即没有把握认为种子是否经过处理跟是否生病有关.
10.为研究某新药的疗效,给50名患者服用此药,跟踪调查后得下表中的数据:
无效
有效
总计
男性患者
15
35
50
女性患者
6
44
50
总计
21
79
100
设H0:
服用此药的效果与患者的性别无关,则K2的观测值k≈________(小数点后保留三位有效数字),从而得出结论:
服用此药的效果与患者的性别有关,这种判断出错的可能性为________.
答案 4.882 5%
解析 由公式计算得K2的观测值k≈4.882,∵k>3.841,∴我们有95%的把握认为服用此药的效果与患者的性别有关,从而有5%的可能性出错.
11.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得数据,试问:
在出错概率不超过0.025的前提下,能否判断“文科学生总成绩不好与数学成绩不好有关系”?
总成绩不好
总成绩好
总计
数学成绩不好
478
12
490
数学成绩好
399
24
423
总计
877
36
913
解 依题意,计算随机变量K2的观测值:
k=
≈6.233>5.024,
所以在出错概率不超过0.025的前提下,可以判断“文科学生总成绩不好与数学成绩不好有关系”.
12.吃零食是中学生中普遍存在的现象,吃零食对学生身体发育有诸多不利影响,影响学生的健康成长.下表是性别与吃零食的列联表:
男
女
总计
喜欢吃零食
5
12
17
不喜欢吃零食
40
28
68
总计
45
40
85
请问喜欢吃零食与性别是否有关?
解 k=
,
把相关数据代入公式,得
k=
≈4.722>3.841.
因此,在犯错误的概率不超过0.05的前提下,可以认为“喜欢吃零食与性别有关”.
三、探究与拓展
13.在某校对有心理障碍学生进行测试得到如下列联表:
焦虑
说谎
懒惰
总计
女生
5
10
15
30
男生
20
10
50
80
总计
25
20
65
110
试说明在这三种心理障碍中哪一种与性别关系最大?
解 对于题中三种心理障碍分别构造三个随机变量K
,K
,K
.其观测值分别为k1,k2,k3.
由表中数据列出焦虑是否与性别有关的2×2列联表
焦虑
不焦虑
总计
女生
5
25
30
男生
20
60
80
总计
25
85
110
可得k1=
≈0.863<2.706,
同理,k2=
≈6.366>5.024,
k3=
≈1.410<2.706.
因此,在犯错误的概率不超过0.025的前提下,认为说谎与性别有关,没有充分的证据显示焦虑、懒惰与性别有关.