高考文科数学真题解析分类汇编I单元 统计纯word可编辑.docx
《高考文科数学真题解析分类汇编I单元 统计纯word可编辑.docx》由会员分享,可在线阅读,更多相关《高考文科数学真题解析分类汇编I单元 统计纯word可编辑.docx(23页珍藏版)》请在冰豆网上搜索。
高考文科数学真题解析分类汇编I单元统计纯word可编辑
数学
I单元 统计
I1 随机抽样
3.[2014·重庆卷]某中学有高中生3500人,初中生1500人.为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n的样本,已知从高中生中抽取70人,则n为( )
A.100B.150
C.200D.250
3.A [解析]由题意,得
=
,解得n=100.
11.[2014·湖北卷]甲、乙两套设备生产的同类型产品共4800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为________件.
11.1800 [解析]设乙设备生产的产品总数为n,则
=
,解得n=1800.
3.[2014·湖南卷]对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则( )
A.p1=p2<p3B.p2=p3<p1
C.p1=p3<p2D.p1=p2=p3
3.D [解析]不管是简单随机抽样、系统抽样还是分层抽样,它们都是等概率抽样,每个个体被抽中的概率均为
.
2.、[2014·四川卷]在“世界读书日”前夕,为了了解某地5000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5000名居民的阅读时间的全体是( )
A.总体
B.个体
C.样本的容量
D.从总体中抽取的一个样本
2.A [解析]根据抽样统计的概念可知,统计分析的对象全体叫做“总体”.故选A.
9.[2014·天津卷]某大学为了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查.已知该校一年级、二年级、三年级、四年级的本科生人数之比为4∶5∶5∶6,则应从一年级本科生中抽取________名学生.
9.60 [解析]由分层抽样方法可得,从一年级本科生中抽取的学生人数为300×
=60.
15.、[2014·天津卷]某校夏令营有3名男同学A,B,C和3名女同学X,Y,Z,其年级情况如下表:
一年级
二年级
三年级
男同学
A
B
C
女同学
X
Y
Z
现从这6名同学中随机选出2人参加知识竞赛(每人被选到的可能性相同).
(1)用表中字母列举出所有可能的结果;
(2)设M为事件“选出的2人来自不同年级且恰有1名男同学和1名女同学”,求事件M发生的概率.
15.解:
(1)从6名同学中随机选出2人参加知识竞赛的所有可能结果为{A,B},{A,C},{A,X},{A,Y},{A,Z},{B,C},{B,X},{B,Y},{B,Z},{C,X},{C,Y},{C,Z},{X,Y},{X,Z},{Y,Z},共15种.
(2)选出的2人来自不同年级且恰有1名男同学和1名女同学的所有可能结果为{A,Y},{A,Z},{B,X},{B,Z},{C,X},{C,Y},共6种.
因此,事件M发生的概率P(M)=
=
.
I2 用样本估计总体
17.、[2014·安徽卷]某高校共有学生15000人,其中男生10500人,女生4500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:
小时).
(1)应收集多少位女生的样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图14所示),其中样本数据的分组区间为:
[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率.
图14
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
P(K2≥k0)
0.10
0.05
0.010
0.005
k0
2.706
3.841
6.635
7.879
附:
K2=
17.解:
(1)300×
=90,所以应收集90位女生的样本数据.
(2)由频率分布直方图得每周平均体育运动超过4小时的频率为1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.
(3)由
(2)知,300位学生中有300×0.75=225(位)的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:
男生
女生
总计
每周平均体育运动时间不超过4小时
45
30
75
每周平均体育运动时间超过4小时
165
60
225
总计
210
90
300
结合列联表可算得K2=
=
≈4.762>3.841.
所以有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
18.[2014·北京卷]从某校随机抽取100名学生,获得了他们一周课外阅读时间(单位:
小时)的数据,整理得到数据分组及频数分布表和频率分布直方图(如图16).
组号
分组
频数
1
[0,2)
6
2
[2,4)
8
3
[4,6)
17
4
[6,8)
22
5
[8,10)
25
6
[10,12)
12
7
[12,14)
6
8
[14,16)
2
9
[16,18)
2
合计
100
图16
(1)从该校随机选取一名学生,试估计这名学生该周课外阅读时间少于12小时的概率;
(2)求频率分布直方图中的a,b的值;
(3)假设同一组中的每个数据可用该组区间的中点值代替,试估计样本中的100名学生该周课外阅读时间的平均数在第几组.(只需写出结论)
18.解:
(1)根据频数分布表,100名学生中课外阅读时间不少于12小时的学生共有6+2+2=10(名),所以样本中的学生课外阅读时间少于12小时的频率是1-
=0.9.
故从该校随机选取一名学生,估计其课外阅读时间少于12小时的概率为0.9.
(2)课外阅读时间落在组[4,6)内的有17人,频率为0.17,所以a=
=
=0.085.
课外阅读时间落在组[8,10)内的有25人,频率为0.25,所以b=
=
=0.125.
(3)样本中的100名学生课外阅读时间的平均数在第4组.
20.,[2014·福建卷]根据世行2013年新标准,人均GDP低于1035美元为低收入国家;人均GDP为1035~4085美元为中等偏下收入国家;人均GDP为4085~12616美元为中等偏上收入国家;人均GDP不低于12616美元为高收入国家.某城市有5个行政区,各区人口占该城市人口比例及人均GDP如下表:
行政区
区人口占城市人口比例
区人均GDP(单位:
美元)
A
25%
8000
B
30%
4000
C
15%
6000
D
10%
3000
E
20%
10000
(1)判断该城市人均GDP是否达到中等偏上收入国家标准;
(2)现从该城市5个行政区中随机抽取2个,求抽到的2个行政区人均GDP都达到中等偏上收入国家标准的概率.
20.解:
(1)设该城市人口总数为a,则该城市人均GDP为
=
6400(美元).
因为6400∈[4085,12616),
所以该城市人均GDP达到了中等偏上收入国家标准.
(2)“从5个行政区中随机抽取2个”的所有的基本事件是:
{A,B},{A,C},{A,D},{A,E},{B,C},{B,D},{B,E},{C,D},{C,E},{D,E},共10个.
设事件M为“抽到的2个行政区人均GDP都达到中等偏上收入国家标准”,
则事件M包含的基本事件是:
{A,C},{A,E},{C,E},共3个.
所以所求概率为P(M)=
.
6.[2014·广东卷]为了解1000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为( )
A.50B.40
C.25D.20
6.C [解析]由题意得,分段间隔是
=25.
17.、[2014·湖南卷]某企业有甲、乙两个研发小组,为了比较他们的研发水平,现随机抽取这两个小组往年研发新产品的结果如下:
(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b).
其中a,a分别表示甲组研发成功和失败;b,b分别表示乙组研发成功和失败.
(1)若某组成功研发一种新产品,则给该组记1分,否则记0分.试计算甲、乙两组研发新产品的成绩的平均数和方差,并比较甲、乙两组的研发水平.
(2)若该企业安排甲、乙两组各自研发一种新产品,试估计恰有一组研发成功的概率.
17.解:
(1)甲组研发新产品的成绩为
1,1,1,0,0,1,1,1,0,1,0,1,1,0,1,
其平均数为x甲=
=
,
方差为s
=
=
.
乙组研发新产品的成绩为
1,0,1,1,0,1,1,0,1,0,0,1,0,1,1,
其平均数为x乙=
=
,
方差为s
=
=
.
因为x甲>x乙,s
<s
,所以甲组的研发水平优于乙组.
(2)记E={恰有一组研发成功}.
在所抽得的15个结果中,恰有一组研发成功的结果是(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),
共7个,故事件E发生的频率为
.
将频率视为概率,即得所求概率为P(E)=
.
6.[2014·江苏卷]为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:
cm),所得数据均在区间[80,130]上,其频率分布直方图如图12所示,则在抽测的60株树木中,有____株树木的底部周长小于100cm.
图12
6.24 [解析]由频率分布直方图可得,数据在[80,90]的频率为0.015×10=0.15,数据在[90,100]的频率为0.025×10=0.25.又样本容量为60株,故所求为(0.15+0.25)×60=24(株).
19.[2014·新课标全国卷Ⅱ]某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:
甲部门
乙部门
3
59
4
4
0448
97
5
122456677789
97665332110
6
011234688
98877766555554443332100
7
00113449
6655200
8
123345
632220
9
011456
10
000
图14
(1)分别估计该市的市民对甲、乙两部门评分的中位数;
(2)分别估计该市的市民对甲、乙两部门的评分高于90的概率;
(3)根据茎叶图分析该市的市民对甲、乙两部门的评价.
19.解:
(1)由所给茎叶图知,将50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本的中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75.
50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为
=67,所以该市的市民对乙部门评分的中位数的估计值是67.
(2)由所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为
=0.1,
=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.
(3)由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.(注:
考生利用其他统计量进行分析,结论合理的同样给分.)
18.[2014·全国新课标卷Ⅰ]从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:
质量指标
值分组
[75,85)
[85,95)
[95,105)
[105,115)
[115,125)
频数
6
26
38
22
8
(1)在答题卡上作出这些数据的频率分布直方图;
(2)估计这种产品质量指标值的平均值及方差(同一组中的数据用该组区间的中点值作代表);
(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?
18.解:
(1)频率分布直方图如下:
(2)质量指标值的样本平均数为
x=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.
质量指标值的样本方差为s2=(-20)2×0.06+
(-10)2×0.26+0×0.38+102×0.22+202×0.08=104.所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.
(3)质量指标值不低于95的产品所占比例的估计值为0.38+0.22+0.8=0.68.
由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定.
8.[2014·山东卷]为了研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿者的舒张压数据(单位:
kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17].将其按从左到右的顺序分别编号为第一组,第二组,……,第五组,图12是根据试验数据制成的频率分布直方图,已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为( )
图12
A.6B.8C.12D.18
8.C [解析]因为第一组与第二组共有20人,并且根据图像知第一组与第二组的频率之比是0.24∶0.16=3∶2,所以第一组的人数为20×
=12.又因为第一组与第三组的频率之比是0.24∶0.36=2∶3,所以第三组有12÷
=18人.因为第三组中没有疗效的人数为6,所以第三组中有疗效的人数是18-6=12.
16.,[2014·山东卷]海关对同时从A,B,C三个不同地区进口的某种商品进行抽样检测,从各地区进口此种商品的数量(单位:
件)如表所示.工作人员用分层抽样的方法从这些商品中共抽取6件样品进行检测.
地区
A
B
C
数量
50
150
100
(1)求这6件样品中来自A,B,C各地区商品的数量;
(2)若在这6件样品中随机抽取2件送往甲机构进行进一步检测,求这2件商品来自相同地区的概率.
16.解:
(1)因为样本容量与总体中的个体数的比是
=
,所以样本中包含三个地区的个体数量分别是:
50×
=1,150×
=3,100×
=2.
所以A,B,C三个地区的商品被选取的件数分别是1,3,2.
(2)设6件来自A,B,C三个地区的样品分别为:
A;B1,B2,B3;C1,C2.则抽取的这2件商品构成的所有基本事件为:
{A,B1},{A,B2},{A,B3},{A,C1},{A,C2},{B1,B2},{B1,B3},{B1,C1},{B1,C2},{B2,B3}{B2,C1},{B2,C2},{B3,C1},{B3,C2},{C1,C2},共15个.
每个样品被抽到的机会均等,因此这些基本事件的出现是等可能的.
记事件D为“抽取的这2件商品来自相同地区”,
则事件D包含的基本事件有{B1,B2},{B1,B3},{B2,B3},{C1,C2},共4个.
所以P(D)=
,即这2件商品来自相同地区的概率为
.
9.[2014·陕西卷]某公司10位员工的月工资(单位:
元)为x1,x2,…,x10,其均值和方差分别为
和s2,若从下月起每位员工的月工资增加100元,则这10位员工下月工资的均值和方差分别为( )
A.
,s2+1002B.
+100,s2+1002
C.
,s2D.
+100,s2
9.D [解析]由题目中所给的数据可知x
,
不妨设这10位员工下月工资的均值为
,则
=
=
+100,易知方差没发生变化.
2.、[2014·四川卷]在“世界读书日”前夕,为了了解某地5000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5000名居民的阅读时间的全体是( )
A.总体
B.个体
C.样本的容量
D.从总体中抽取的一个样本
2.A [解析]根据抽样统计的概念可知,统计分析的对象全体叫做“总体”.故选A.
17.、[2014·重庆卷]20名学生某次数学考试成绩(单位:
分)的频率分布直方图如图13所示.
图13
(1)求频率分布直方图中a的值;
(2)分别求出成绩落在[50,60)与[60,70)中的学生人数;
(3)从成绩在[50,70)的学生中任选2人,求此2人的成绩都在[60,70)中的概率.
17.解:
(1)据直方图知组距为10,由
(2a+3a+7a+6a+2a)×10=1,
解得a=
=0.005.
(2)成绩落在[50,60)中的学生人数为2×0.005×10×20=2.
成绩落在[60,70)中的学生人数为3×0.005×10×20=3.
(3)记成绩落在[50,60)中的2人为A1,A2,成绩落在[60,70)中的3人为B1,B2,B3,则从成绩在[50,70)的学生中任选2人的基本事件共有10个,即(A1,A2),(A1,B1),(A1,B2),(A1,B3),(A2,B1),(A2,B2),(A2,B3),(B1,B2),(B1,B3),(B2,B3).
其中2人的成绩都在[60,70)中的基本事件有3个,即(B1,B2),(B1,B3),(B2,B3).
故所求概率为P=
.
I3正态分布
I4 变量的相关性与统计案例
17.、[2014·安徽卷]某高校共有学生15000人,其中男生10500人,女生4500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:
小时).
(1)应收集多少位女生的样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图14所示),其中样本数据的分组区间为:
[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率.
图14
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
P(K2≥k0)
0.10
0.05
0.010
0.005
k0
2.706
3.841
6.635
7.879
附:
K2=
17.解:
(1)300×
=90,所以应收集90位女生的样本数据.
(2)由频率分布直方图得每周平均体育运动超过4小时的频率为1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.
(3)由
(2)知,300位学生中有300×0.75=225(位)的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:
男生
女生
总计
每周平均体育运动时间不超过4小时
45
30
75
每周平均体育运动时间超过4小时
165
60
225
总计
210
90
300
结合列联表可算得K2=
=
≈4.762>3.841.
所以有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
6.[2014·湖北卷]根据如下样本数据
x
3
4
5
6
7
8
y
4.0
2.5
-0.5
0.5
-2.0
-3.0
得到的回归方程为
=bx+a,则( )
A.a>0,b<0B.a>0,b>0
C.a<0,b<0D.a<0,b>0
6.A [解析]作出散点图如下:
由图像不难得出,回归直线
=bx+a的斜率b<0,截距a>0,所以a>0,b<0.故选A.
图11
7.[2014·江西卷]某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )
表1 表2
成绩
性别
不及格
及格
总计
男
6
14
20
女
10
22
32
总计
16
36
52
视力
性别
好
差
总计
男
4
16
20
女
12
20
32
总计
16
36
52
表3 表4
智商
性别
偏高
正常
总计
男
8
12
20
女
8
24
32
总计
16
36
52
阅读量
性别
丰富
不丰
富
总计
男
14
6
20
女
2
30
32
总计
16
36
52
A.成绩 B.视力 C.智商 D.阅读量
7.D [解析]通过计算可得,表1中的χ2≈0.009,表2中的χ2≈1.769,表3中的χ2=1.300,表4中的χ2≈23.481,故选D.
18.、[2014·辽宁卷]某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:
喜欢甜品
不喜欢甜品
合计
南方学生
60
20
80
北方学生
10
10
20
合计
70
30
100
(1)根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”;
(2)已知在被调查的北方学生中有5名数学系的学生,其中2名喜欢甜品,现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.
附:
χ2=
,
P(χ2≥k)
0.100
0.050
0.010
k
2.706
3.841
6.635
18.解:
(1)将2×2列联表中的数据代入公式计算,得
χ2=
=
=
≈4.762.
由于4.762>3.