12独立性检验的基本思想及其初步应用.docx

上传人:b****8 文档编号:9899626 上传时间:2023-02-07 格式:DOCX 页数:21 大小:183.83KB
下载 相关 举报
12独立性检验的基本思想及其初步应用.docx_第1页
第1页 / 共21页
12独立性检验的基本思想及其初步应用.docx_第2页
第2页 / 共21页
12独立性检验的基本思想及其初步应用.docx_第3页
第3页 / 共21页
12独立性检验的基本思想及其初步应用.docx_第4页
第4页 / 共21页
12独立性检验的基本思想及其初步应用.docx_第5页
第5页 / 共21页
点击查看更多>>
下载资源
资源描述

12独立性检验的基本思想及其初步应用.docx

《12独立性检验的基本思想及其初步应用.docx》由会员分享,可在线阅读,更多相关《12独立性检验的基本思想及其初步应用.docx(21页珍藏版)》请在冰豆网上搜索。

12独立性检验的基本思想及其初步应用.docx

12独立性检验的基本思想及其初步应用

学习目标

 1.了解分类变量的意义.2.了解2×2列联表的意义.3.了解随机变量K2的意义.4.通过对典型案例分析,了解独立性检验的基本思想和方法.

知识点一 分类变量及2×2列联表

思考 山东省教育厅大力推行素质教育,增加了高中生的课外活动时间,某校调查了学生的课外活动方式,结果整理成下表:

体育

文娱

合计

男生

210

230

440

女生

60

290

350

合计

270

520

790

如何判定“喜欢体育还是文娱与性别是否有联系”?

答案 可通过表格与图形进行直观分析,也可通过统计分析定量判断.

梳理 

(1)分类变量

变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.

(2)列联表

①定义:

列出的两个分类变量的频数表,称为列联表.

②2×2列联表

一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(也称为2×2列联表)为下表.

y1

y2

总计

x1

a

b

a+b

x2

c

d

c+d

总计

a+c

b+d

a+b+c+d

知识点二 等高条形图

1.与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.

2.如果通过计算或等高条形图发现和相差很大,就判断两个分类变量之间有关系.

知识点三 独立性检验

1.定义:

利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.

2.K2=.

其中n=a+b+c+d为样本容量.

3.独立性检验的具体做法

(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.

(2)利用公式计算随机变量K2的观测值k.

(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.

类型一 利用等高条形图判断两个分类变量是否有关系

例1 为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:

组别

阳性数

阴性数

总计

铅中毒病人

29

7

36

对照组

9

28

37

总计

38

35

73

试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?

解 等高条形图如图所示:

其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.

由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.

反思与感悟 

(1)等高条形图实质上是列联表中的数据的频率特征.

(2)由于高度相等的条形分别用两种不同颜色表示,其频率差异更能直观地表现出来.

跟踪训练1 网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1000人调查,发现其中经常上网的有200人,这200人中有80人期末考试不及格,而另外800人中有120人不及格.利用图形判断学生经常上网与学习成绩有关吗?

解 根据题目所给的数据得到如下2×2列联表:

经常上网

不经常上网

总计

不及格

80

120

200

及格

120

680

800

总计

200

800

1000

得出等高条形图如图所示:

比较图中阴影部分的高可以发现经常上网不及格的频率明显高于经常上网及格的频率,因此可以认为经常上网与学习成绩有关.

类型二 由K2进行独立性检验

例2 对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示.

又发作过心脏病

未发作过心脏病

合计

心脏搭桥手术

39

157

196

血管清障手术

29

167

196

合计

68

324

392

试根据上述数据比较这两种手术对病人又发作过心脏病的影响有没有差别.

解 假设病人又发作过心脏病与做过心脏搭桥手术还是血管清障手术没有关系,由表中数据得a=39,b=157,c=29,d=167,a+b=196,c+d=196,a+c=68,b+d=324,n=392,

由公式得K2的观测值

k=≈1.779.

因为k≈1.779<2.706,所以不能得出病人又发作过心脏病与做过心脏搭桥手术还是血管清障手术有关系的结论,即这两种手术对病人又发作过心脏病的影响没有差别.

反思与感悟 

(1)独立性检验的关注点

在2×2列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0,因此|ad-bc|越小,关系越弱;|ad-bc|越大,关系越强.

(2)独立性检验的具体做法

①根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误的概率的上界α,然后查表确定临界值k0.

②利用公式K2=计算随机变量K2的观测值k.

③如果k≥k0,推断“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”.

跟踪训练2 某省进行高中新课程改革已经四年了,为了解教师对新课程教学模式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.

(1)根据以上数据建立一个2×2列联表;

(2)判断是否有99%的把握说明对新课程教学模式的赞同情况与教师年龄有关系.

解 

(1)2×2列联表如下所示:

赞同

不赞同

总计

老教师

10

10

20

青年教师

24

6

30

总计

34

16

50

(2)假设“对新课程教学模式的赞同情况与教师年龄无关”.

由公式得k=≈4.963<6.635,

所以没有99%的把握认为对新课程教学模式的赞同情况与教师年龄有关.

类型三 独立性检验的综合应用

例3 电视传媒公司为了解某地区观众对某类体育节目的收看情况,随机抽取了100名观众进行调查,其中女性有55名.如图所示的是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图.

将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女生.

(1)根据已知条件完成下面的2×2列联表,据此资料你是否认为“体育迷”与性别有关?

非体育迷

体育迷

总计

总计

(2)将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性,若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.

附:

K2=,其中n=a+b+c+d为样本容量.

P(K2≥k0)

0.10

0.05

0.01

k0

2.706

3.841

6.635

解 

(1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而完成2×2列联表如下:

非体育迷

体育迷

总计

30

15

45

45

10

55

总计

75

25

100

将2×2列联表中的数据代入

K2=计算,

得K2的观测值k==≈3.030.

因为3.841>3.030>2.706,所以我们有90%的把握认为“体育迷”与性别有关.

(2)由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间为Ω={(a1,a2),(a1,a3),(a2,a3),(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2)},其中ai表示男性,i=1,2,3,bj表示女性,j=1,2.

Ω由10个基本事件组成,而且这些基本事件的出现是等可能的.

用A表示“任选2人中,至少有1人是女性”这一事件,则A={(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2)},事件A由7个基本事件组成,因而P(A)=.

反思与感悟 准确读取频率分布直方图中的数据是解题的关键.求概率时列举基本事件一定要做到不重不漏,此处极容易出错.

跟踪训练3 为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,统计结果如下表:

   性别

是否需要志愿者      

总计

需要

40

30

70

不需要

160

270

430

总计

200

300

500

(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;

(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?

(3)根据

(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?

请说明理由.

解 

(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要志愿者提供帮助的老年人的比例的估计值为=14%.

(2)K2的观测值k=≈9.967.由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关.

(3)由

(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层,并采用分层抽样方法.这种方法比简单随机抽样方法更好.

1.下面是一个2×2列联表:

y1

y2

总计

x1

a

21

73

x2

2

25

27

总计

b

46

则表中a,b处的值分别为(  )

A.94,96B.52,50

C.52,54D.54,52

答案 C

解析 ∵a+21=73,∴a=52,b=a+2=52+2=54.

2.某科研机构为了研究中年人秃发与心脏病是否有关,随机调查了一些中年人的情况,具体数据如表:

心脏病

无心脏病

秃发

20

300

不秃发

5

450

根据表中数据得到k=≈15.968,因为k>6.635,则断定秃发与心脏病有关系,那么这种判断出错的可能性为(  )

A.0.1B.0.05

C.0.025D.0.01

答案 D

解析 因为k>6.635,所以有99%的把握说秃发与患心脏病有关,故这种判断出错的可能性有1-0.99=0.01.

3.用等高条形图粗略估计两个分类变量是否相关,观察下列各图,其中两个分类变量关系最强的是(  )

答案 D

解析 由等高条形图易知,D选项两个分类变量关系最强.

4.若在研究吸烟与患肺癌的关系中,通过收集、整理分析数据得“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,则下列说法中正确的是(  )

A.100个吸烟者中至少有99人患有肺癌

B.1个人吸烟,那么这个人有99%的概率患有肺癌

C.在100个吸烟者中一定有患肺癌的人

D.在100个吸烟者中可能一个患肺癌的人也没有

答案 D

解析 独立性检验的结论是一个统计量,统计的结果只是说明事件发生的可能性的大小,具体到一个个体,则不一定发生.

5.根据下表计算:

不看电视

看电视

37

85

35

143

K2的观测值k≈________.(保留3位小数)

答案 4.514

解析 k=≈4.514.

1.列联表与等高条形图

列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有相关关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有相关关系.

2.对独立性检验思想的理解

独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量K2的值,如果K2的值很大,说明假设不合理.K2越大,两个分类变量有关系的可能性越大.

课时作业

一、选择题

1.如图所示的是调查某地区男、女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图中可以看出(  )

A.性别与喜欢理科无关

B.女生中喜欢理科的比例约为80%

C.男生比女生喜欢理科的可能性大些

D.男生中不喜欢理科的比例约为60%

答案 C

解析 由题图可知女生中喜欢理科的比例约为20%,男生中喜欢理科的比例约为60%,因此男生比女生喜欢理科的可能性大些.故选C.

2.下列关于K2的说法正确的是(  )

A.K2在任何相互独立的问题中都可以用来检验有关系还是无关系

B.K2的值越大,两个事件的相关性就越大

C.K2是用来判断两个分类变量是否有关系的随机变量,只对两个分类变量适用

D.K2的观测值的计算公式为k=

答案 C

解析 本题主要考查对K2的理解,K2是用来判断两个分类变量是否有关系的随机变量,所以A错;K2的值越大,说明我们能以更大的把握认为两个分类变量有关系,不能判断相关性的大小,所以B错;D中(ad-bc)应为(ad-bc)2.

3.假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其中2×2列联表为:

y1

y2

总计

x1

a

b

a+b

x2

c

d

c+d

总计

a+c

b+d

a+b+c+d

对同一样本,以下数据能说明X与Y有关的可能性最大的一组是(  )

A.a=5,b=4,c=3,d=2

B.a=5,b=3,c=4,d=2

C.a=2,b=3,c=4,d=5

D.a=3,b=2,c=4,d=5

答案 D

解析 对于同一样本,|ad-bc|越小,说明x与y相关性越弱,而|ad-bc|越大,说明x与y相关性越强,通过计算知,对于A,B,C都有|ad-bc|=|10-12|=2.对于选项D,有|ad-bc|=|15-8|=7,显然7>2.

4.在独立性检验中,两个分类变量“X与Y有关系”的可信度为99%,则随机变量K2的观测值k的取值范围是(  )

A.[3.841,5.024)B.[5.024,6.635)

C.[6.635,7.879)D.[7.879,10.828)

答案 C

5.通过随机询问250名不同性别的大学生在购买食物时是否看营养说明书,得到如下2×2联表:

总计

读营养说明书

90

60

150

不读营养说明书

30

70

100

总计

120

130

250

从调查的结果分析,认为性别和读营养说明书的关系(  )

A.95%以上认为无关

B.90%~95%认为有关

C.95%~99.9%认为有关

D.99.9%以上认为有关

答案 D

解析 根据题意,得K2=≈21.63>10.828,

∴有99.9%的把握认为性别和看营养说明书有关.故选D.

6.在吸烟与患肺病这两个分类变量是否相关的判断中,下列说法中正确的是(  )

①若K2的观测值k>6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,我们说若某人吸烟,则他有99%的可能性患有肺病;③从统计量中得知在犯错误的概率不超过0.05的前提下认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误.

A.①B.①③C.③D.②

答案 C

解析 K2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故①不正确;②中对“确定容许推断犯错误概率的上界”理解错误;③正确.

7.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:

总计

爱好

40

20

60

不爱好

20

30

50

总计

60

50

110

由K2=,算得

K2=≈7.8.

附表:

P(K2≥k0)

0.050

0.010

0.001

k0

3.841

6.635

10.828

参照附表,得到的正确结论是(  )

A.有99%以上的把握认为“爱好该项运动与性别有关”

B.有99%以上的把握认为“爱好该项运动与性别无关”

C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”

D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”

答案 A

解析 由7.8>6.635知,有99%以上的把握认为“爱好该项运动与性别有关”.

8.某班主任对全班50名学生进行了作业量的调查,数据如下表:

认为作业量大

认为作业量不大

合计

男生

18

9

27

女生

8

15

23

合计

26

24

50

则推断“学生的性别与认为作业量大有关”这种推断犯错误的概率不超过(  )

A.0.01B.0.005

C.0.025D.0.001

答案 C

解析 由公式得K2的观测值k=≈5.059>5.024.∵P(K2≥5.024)=0.025,∴犯错误的概率不超过0.025.

9.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:

优秀

非优秀

总计

甲班

10

b

乙班

c

30

总计

105

已知在全部105人中随机抽取1人,成绩优秀的概率为,参考下面所给附表,则下列说法正确的是(  )

P(K2≥k0)

0.10

0.05

0.025

k0

2.706

3.841

5.024

A.列联表中c的值为30,b的值为35

B.列联表中c的值为15,b的值为50

C.根据列联表中的数据,若按97.5%的可靠性要求,能认为“成绩与班级有关系”

D.根据列联表中的数据,若按97.5%的可靠性要求,不能认为“成绩与班级有关系”

答案 C

解析 ∵成绩优秀的概率为,

∴成绩优秀的学生数是105×=30.

成绩非优秀的学生数是75,

∴c=20,b=45,选项A,B错误.

又根据列联表中的数据,得到K2的观测值k=≈6.109>5.024,

因此有97.5%的把握认为“成绩与班级有关系”.故选C.

二、填空题

10.在研究性别与吃零食这两个分类变量是否有关系时,下列说法中正确的是________.

①若K2的观测值k=6.635,则我们在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;

②由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,如果某人吃零食,那么此人是女性的可能性为99%;

③由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误.

答案 ③

解析 K2的观测值是支持确定有多大的把握认为“两个分类变量吃零食与性别有关系”的随机变量值,所以由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误,故填③.

11.为研究某新药的疗效,给100名患者服用此药,跟踪调查后得下表中的数据:

无效

有效

总计

男性患者

15

35

50

女性患者

6

44

50

总计

21

79

100

设H:

服用此药的效果与患者的性别无关,则K2的观测值k≈________(小数点后保留3位有效数字),从而得出结论;服用此药的效果与患者的性别有关,这种判断出错的可能性为________.

答案 4.882 5%

解析 由公式计算得K2的观测值k≈4.882,

∵k>3.841,∴我们有95%的把握认为服用此药的效果与患者的性别有关,从而有5%的可能性出错.

三、解答题

12.某市对该市一重点中学2016年高考上线情况进行统计,随机抽查244名学生,得到如下表格:

总分上线201人

总分不上线43分

总计

语文

上线

174

30

204

不上线

27

13

40

数学

上线

178

23

201

不上线

23

20

43

英语

上线

176

24

200

不上线

25

19

44

综合科目

上线

175

26

201

不上线

26

17

43

试求各科上线与总分上线之间的关系,并求出哪一科目与总分上线关系最大?

解 对于题干中四个科目,分别构造四个随机变量K,K,K,K,相应的观测值为k1,k2,k3,k4.

语文:

k1=≈7.294>6.635,

数学:

k2=≈30.008>10.828,

英语:

k3=≈24.155>10.828,

综合科目:

k4=≈17.264>10.828,

∴有99%的把握认为语文上线与总分上线有关系,有99.9%的把握认为数学、英语、综合科目上线与总分上线有关系,数学上线与总分上线关系最大.

13.研究人员选取170名青年男女大学生的样本,对他们进行一种心理测验.发现有60名女生对该心理测验中的最后一个题目的反应是:

作肯定的有22名,否定的有38名;男生110名在相同的项目上作肯定的有22名,否定的有88名.问:

性别与态度之间是否存在某种关系?

分别用条形图和独立性检验的方法判断.

解 建立性别与态度的2×2列联表如下:

肯定

否定

总计

男生

22

88

110

女生

22

38

60

总计

44

126

170

根据列联表中所给的数据,可求出男生中作肯定态度的频率为=0.2,女生中作肯定态度的频率为≈0.37.作等高条形图如图,其中两个深色条形的高分别表示男生和女生中作肯定态度的频率,比较图中深色条形的高可以发现,女生中作肯定态度的频率明显高于男生中作肯定态度的频率,因此可以认为性别与态度有关系.

根据列联表中的数据得到K2的观测值

k=≈5.622>5.024.

因此,在犯错误的概率不超过0.025的前提下认为性别和态度有关系.

四、探究与拓展

14.2014年世界杯期间,某一电视台对年龄高于40岁和不高于40岁的人是否喜欢西班牙队进行调查,对高于40岁的调查了50人,不高于40岁的调查了50人,所得数据制成如下列联表:

不喜欢西班牙队

喜欢西班牙队

总计

高于40岁

p

q

50

不高于40岁

15

35

50

总计

a

b

100

若工作人员从所有统计结果中任取一个,取到喜欢西班牙队的人的概率为,则有超过________的把握认为年龄与西班牙队的被喜欢程度有关.

附:

K2=.

P(K2≥k0)

0.15

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 冶金矿山地质

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1