D.p1=p2=p3
【变式1】(2017•大连二模)某单位员工按年龄分为A,B,C三组,其人数之比为5:
4:
1,现用分层抽样的方法从总体中抽取一个容量为10的样本,已知C组中某个员工被抽到的概率是
,则该单位员工总数为( )
A.110
B.10
C.90
D.80
【变式2】(2017•黄州区三模)某校为了解1000名高一新生的身体生长状况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从1~1000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为( )
A.16
B.17
C.18
D.19
【变式3】(2017•宣城二模)一支田径队共有运动员98人,其中女运动员42人,用分层抽样的方法抽取一个样本,每名运动员被抽到的概率都是
,则男运动员应抽取( )
A.18人
B.16人
C.14人
D.12人
3
课后作业
1.为了了解某地区的中小学生视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是( )
A.简单随机抽样
B.按性别分层抽样
C.按学段分层抽样
D.系统抽样
2.从编号为1~50的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射试验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是( )
A.5,10,15,20,25
B.3,13,23,33,43
C.1,2,3,4,5
D.2,4,6,16,32
3.某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为120件,80件,60件.为了解它们的产品质量是否存在显著差异,用分层抽样方法抽取了一个容量为n的样本进行调查,其中从丙车间的产品中抽取了3件,则n=( )
A.9
B.10
C.12
D.13
4.将参加英语口语测试的1000名学生编号为000,001,002,…,999,从中抽取一个容量为50的样本,按系统抽样的方法分为50组,如果第一组编号为000,001,002,…,019,且第一组随机抽取的编号为015,则抽取的第35个编号为( )
A.700
B.669
C.695
D.676
5.某防疫站对学生进行身体健康调查,欲采用分层抽样的办法抽取样本.某中学共有学生2000名,抽取了一个容量为200的样本,已知样本中女生比男生少6人,则该校共有女生( )
A.1030人
B.97人
C.950人
D.970人
第2节用样本估计总体
最新考纲:
1.了解分布的意义与作用,能根据概率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.2.理解样本数据标准差的意义和作用,会计算数据标准差.3.能从样本数据中提取基本的数字特征(如平均数、标准差),并做出合理的解释.4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征.理解用样本估计总体的思想,会用样本估计总体的思想解决一些简单的实际问题.
1
知识梳理
1.频率分布直方图
(1)频率分布表的画法:
第一步:
求极差,决定组数和组距,组距=
;
第二步:
分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;
第三步:
登记频数,计算频率,列出频率分布表.
(2)频率分布直方图:
反映样本频率分布的直方图.
横轴表示样本数据,纵轴表示
,每个小矩形的面积表示样本落在该组内的频率.
2.茎叶图
统计中还有一种被用来表示数据的图叫做茎叶图,茎是指中间的一列数,叶是从茎的旁边生长出来的数.
3.样本的数字特征
数字特征
定义
众数
在一组数据中,出现次数最多的数据叫做这组数据的众数
中位数
将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.
在频率分布直方图中,中位数左边和右边的直方图的面积相等
平均数
样本数据的算术平均数,即
=
方差
s2=
[(x1-
)2+(x2-
)2+…+(xn-
)2],其中s为标准差
2
题型分类
题型一茎叶图
【例1】(必修3P70改编)若某校高一年级8个班参加合唱比赛的得分茎叶图如图所示,则这组数据的中位数和平均数分别是( )
A.91.5和91.5
B.91.5和92
C.91和91.5
D.92和92
【例2】(2016•唐山一模)为迎接即将举行的集体跳绳比赛,高一年级对甲、乙两个代表队各进行了6轮测试,测试成绩(单位:
次/分钟)如表:
(1)补全茎叶图并指出乙队测试成绩的中位数和众数;
(2)试用统计学中的平均数、方差知识对甲乙两个代表队的测试成绩进行分析.
【变式1】如图,茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:
分).已知甲组数据的中位数为15,乙组数据的平均数为16.8,则x,y的值分别为( )
A.2,5
B.5,5
C.5,8
D.8,8
【变式2】(2015秋•宣城期末)甲、乙两位学生参加数学竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取8次,记录如下:
(1)用茎叶图表示这两组数据;
(2)现要从中选派一人参加数学竞赛,从统计学的角度(在平均数、方差或标准差中选两个)考虑,你认为选派哪位学生参加合适?
请说明理由.
题型二频率分布直方图
【例1】(教材习题改编)某校为了了解教科研工作开展状况与教师年龄之间的关系,将该校不小于35岁的80名教师按年龄分组,分组区间为[35,40),[40,45),[45,50),[50,55),[55,60],由此得到频率分布直方图如图,则这80名教师中年龄小于45岁的有________人.
【例2】(2017·济南调研)为了研究某药品的疗效,选取若干名志愿者进行临床试验.所有志愿者的舒张压数据(单位:
kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,......,第五组.下图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为_______.
【变式1】(2017•东台市模拟)从高三年级随机抽取100名学生,将他们的某次考试数学成绩绘制成频率分布直方图.由图中数据可知成绩在[130,140)内的学生人数为_______.
【变式2】(2016秋•威海期末)从某小学随机抽取100名同学,将他们的身高(单位:
厘米)数据绘制成频率分布直方图(如图).若要从身高在[100,110),[110,120),[120,130)三组内的学生中,用分层抽样的方法选取28人参加一项活动,则从身高在[120,130)内的学生中选取的人数应为_______.
【例3】(2016·四川卷)我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查.通过抽样,获得了某年100位居民每人的月均用水量(单位:
吨),将数据按照[0,0.5),[0.5,1),……,[4,4.5]分成9组,制成了如图所示的频率分布直方图.
(1)求直方图中a的值;
(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由;
(3)估计居民月均用水量的中位数.
【变式3】(2017•灵丘县四模)为对考生的月考成绩进行分析,某地区随机抽查了10000名考生的成绩,根据所得数据画了如下的样本频率分布直方图.
(1)求成绩在[600,650)的频率;
(2)根据频率分布直方图算出样本数据的中位数;
(3)为了分析成绩与班级、学校等方面的关系,必须按成绩再从这10000人中用分层抽样方法抽出20人作进一步分析,则成绩在[550,600)的这段应抽多少人?
【例4】(2017•唐山二模)共享单车的出现方便了人们的出行,深受我市居民的喜爱.为调查某校大学生对共享单车的使用情况,从该校8000名学生中按年级用分层抽样的方式随机抽取了100位同学进行调查,得到这100名同学每周使用共享单车的时间(单位:
小时)如表:
使用时间
[0,2]
(2,4]
(4,6]
(6,8]
(8,10]
人数
10
40
25
20
5
(1)已知该校大一学生由2400人,求抽取的100名学生中大一学生人数;
(2)作出这些数据的频率分布直方图;
(3)估计该校大学生每周使用共享单车的平均时间
(同一组中的数据用该组区间的中点值作代表).
【变式4】(2014·全国Ⅰ卷)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:
质量指标值分组
[75,85)
[85,95)
[95,105)
[105,115)
[115,125]
频数
6
26
38
22
8
(1)作出这些数据的频率分布直方图:
(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);
(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?
【例5】(2017•肇庆三模)某市房产契税标准如下:
购房总价(万)
(0,200]
(200,400]
(400,
]
税率
1%
1.5%
3%
从该市某高档住宅小区,随机调查了一百户居民,获得了他们的购房总额数据,整理得到了如下的频率分布直方图:
(1)假设该小区已经出售了2000套住房,估计该小区有多少套房子的总价在300万以上,说明理由.
(2)假设同组中的每个数据用该组区间的右端点值代替,估计该小区购房者缴纳契税的平均值.
【变式5】(2016·北京卷)某市居民用水拟实行阶梯水价,每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费.从该市随机调查了10000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:
(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?
(2)假设同组中的每个数据用该组区间的右端点值代替.当w=3时,估计该市居民该月的人均水费.
3
课后作业
1.重庆市2016年各月的平均气温(℃)数据的茎叶图如图,则这组数据的中位数是( )
A.19
B.20
C.21.5
D.23
2.我国古代数学名著《数书九章》有“米谷粒分”题:
粮仓开仓收粮,有人送来米1534石,验得米内夹谷,抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为( )
A.134石
B.169石
C.338石
D.1365石
3.某班的全体学生参加英语测试,成绩的频率分布直方图如图,数据的分组依次为[20,40),[40,60),[60,80),[80,100].若低于60分的人数是15,则该班的学生人数是( )
A.45
B.50
C.55
D.60
4.(2016·全国卷Ⅲ)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图9311中A点表示十月的平均最高气温约为15℃,B点表示四月的平均最低气温约为5℃.下面叙述不正确的是( )
A.各月的平均最低气温都在0℃以上
B.七月的平均温差比一月的平均温差大
C.三月和十一月的平均最高气温基本相同
D.平均最高气温高于20℃的月份有5个
5.(2015•广东)某城市100户居民的月平均用电量(单位:
度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300)分组的频率分布直方图如图.
(1)求直方图中x的值;
(2)求月平均用电量的众数和中位数;
(3)在月平均用电量为,[220,240),[240,260),[260,280),[280,300)的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?
第3节线性回归方程
最新考纲:
1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思想、方法及其简单应用.
1
知识梳理
1.回归分析
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是散点图;统计量有相关系数与相关指数.
(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.
2.线性回归方程
(1)最小二乘法:
使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
(2)回归方程:
两个具有线性相关关系的变量的一组数据:
(x1,y1),(x2,y2),…,(xn,yn),其回归方程为
=
x+
,则
,
.其中,
是回归方程的斜率,
是在y轴上
的截距.
3.相关系数
a.计算公式:
b.当r>0时,表明两个变量正相
关;当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间相关性越弱.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
2
题型分类
题型一相关关系的判断
【例】某公司2010~2015年的年利润
(单位:
百万元)与年广告支出
(单位:
百万元)的统计资料如下表所示:
根据统计资料,则()
A.利润中位数是16,
与
有正线性相关
关系
B.利润中位数是17,
与
有正线性相关关系
C.利润中位数是17,
与
有负线性相关关系
D.利润中位数是18,
与
有负线性相关关系
【变式】对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图
(1);对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图
(2).由这两个散点图可以判断( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相
关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
题型二线性回归分析
【例1】(2017•延边州模拟)如表提供了某厂节能降耗改造后在生产A产品过程中记录的产量x(吨)与相应的生产能耗y(吨)的几组对应数据,根据表中提供的数据,求出y关于x的线性回归方程为
=0.7x+0.35,则下列结论错误的是( )
A.线性回归直线一定过点(4.5,3.5)
B.产品的生产能耗与产量呈正相关
C.t的取值必定是3.15
D.A产品每多生产1吨,则相应的生产能耗约增加0.7吨
【变式1】(2017•南昌一模)设某中学的高中女生体重y(单位:
kg)与身高x(单位:
cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,3,…,n),用最小二乘法近似得到回归直线方程为
=0.85x−85.71,则下列结论中不正确的是( )