高三第一轮复习统计与统计案例.docx

上传人:b****8 文档编号:10082584 上传时间:2023-02-08 格式:DOCX 页数:33 大小:364.16KB
下载 相关 举报
高三第一轮复习统计与统计案例.docx_第1页
第1页 / 共33页
高三第一轮复习统计与统计案例.docx_第2页
第2页 / 共33页
高三第一轮复习统计与统计案例.docx_第3页
第3页 / 共33页
高三第一轮复习统计与统计案例.docx_第4页
第4页 / 共33页
高三第一轮复习统计与统计案例.docx_第5页
第5页 / 共33页
点击查看更多>>
下载资源
资源描述

高三第一轮复习统计与统计案例.docx

《高三第一轮复习统计与统计案例.docx》由会员分享,可在线阅读,更多相关《高三第一轮复习统计与统计案例.docx(33页珍藏版)》请在冰豆网上搜索。

高三第一轮复习统计与统计案例.docx

高三第一轮复习统计与统计案例

2018高三第一轮复习统计与统计案例

2018高三第一轮复习统计与统计案例

一、随机抽样

三种抽样方法的比较

类别

共同点

各自特点

相互联系

适用范围

简单随机抽样

都是不放回抽样,抽样过程中,每个个体被抽到的机会(概率)相等

从总体中逐个抽取

总体中的个数较少

系统抽样

将总体均分成几部分,按事先确定的规则,在各部分抽取

在起始部分抽样时,采用简单随机抽样

总体中的个数比较多

分层抽样

将总体分成几层,分层进行抽取

各层抽样时,采用简单随机抽样或者系统抽样

总体由差异明显的几部分组成

二、用样本估计总体

1.用样本频率分布估计总体频率分布

(1)频率分布直方图的作法

①求极差:

即最大数与最小数的差;

②决定组距与组数:

组距与组数的确定没有固定的标准,试题中一般有规定;

③数据分组:

计算各小组的频数和频率,列出频率分布表;

④画频率分布直方图:

图中纵轴表示

,各小矩形宽为组距,面积为频率.

(2)茎叶图

茎叶图中,茎是指中间的一列数,叶是茎的旁边的数,茎中一个数与叶中的一个数并在一起构成一个完整数据.

茎叶图的优点是所有数据都可以在图中得到,且便于记录和表示,数据的分布情况也比较明显.缺点是当数据较多时,用起来不太方便.

2.众数、中位数、平均数

数字特征

样本数据

频率分布直方图

众数

出现次数最多的数据

取最高的小长方形底边中点的横坐标

中位数

将数据按大小依次排列,处在最中间位置的一个数据(或最中间两个数据的平均数)

把频率分布直方图划分为左右两个面积相等的部分,分界线与x轴交点的横坐标

平均数

样本数据的算术平均数

每个小矩形的面积乘小矩形底边中点的横坐标之和

3.方差和标准差:

方差和标准差反映了数据波动程度的大小.

(1)方差:

s2=

[(x1-

)2+(x2-

)2+…+(xn-

)2];

(2)标准差:

s=

.

性质:

标准差(或方差)越小,说明数据波动越小,越稳定;标准差越大,说明数据越分散,越不稳定.

三、变量间的相关关系及回归分析

1.相关关系:

当自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫作相关关系.与函数关系不同,相关关系是一种不确定关系.

2.散点图:

表示具有相关关系的两个变量的一组数据的图形叫作散点图,它可直观地判断两变量的关系是否可以用线性关系表示.若这些点散布在从左下角到右上角的区域,则称两个变量正相关;若这些点散布在从左上角到右下角的区域,则称两个变量负相关.

3.回归分析:

对具有相关关系的两个变量进行统计分析的方法叫作回归分析.在线性回归模型y=bx+a+e中,因变量y的值由自变量x和随机误差e共同确定,即自变量x只能解释部分y的变化,在统计中,我们把自变量x称为解释变量,因变量y称为预报变量.

4.回归方程:

x+

,其中

.主要用来估计和预测取值,从而获得对这两个变量之间整体关系的了解.

5.回归中心:

点(

)叫作回归中心,回归直线一定经过回归中心.

6.相关系数:

r=

.

主要用于相关量的显著性检验,以衡量它们之间的线性相关程度.当r>0时,表示两个变量正相关;当r<0时,表示两个变量负相关.|r|越接近1,表明两个变量的线性相关性越强;当|r|接近0时,表明两个变量间几乎不存在线性相关关系.

四、独立性检验

1.分类变量

变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.

2.列联表

列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:

y1

y2

总计

x1

a

b

a+b

x2

c

d

c+d

总计

a+c

b+d

a+b+c+d

可构造一个随机变量K2=

,其中n=a+b+c+d为样本容量.

3.独立性检验

利用随机变量、独立性假设来确定是否一定有把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.

两个分类变量X和Y是否有关系的判断方法:

统计学研究表明:

当K2≤3.841时,认为X与Y无关;

当K2>3.841时,有95%的把握说X与Y有关;

当K2>6.635时,有99%的把握说X与Y有关;

当K2>10.828时,有99.9%的把握说X与Y有关.

 

题型一:

抽样方法

1.(2013·安徽,5,易)某班级有50名学生,其中有30名男生和20名女生,随机询问了该班五名男生和五名女生在某次数学测验中的成绩,五名男生的成绩分别为86,94,88,92,90,五名女生的成绩分别为88,93,93,88,93.下列说法一定正确的是(  )

A.这种抽样方法是一种分层抽样

B.这种抽样方法是一种系统抽样

C.这五名男生成绩的方差大于这五名女生成绩的方差

D.该班男生成绩的平均数小于该班女生成绩的平均数

 

2.某大学为了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查.已知该校一年级、二年级、三年级、四年级的本科生人数之比为4∶5∶5∶6,则应从一年级本科生中抽取________名学生.

 

3.在一次马拉松比赛中,35名运动员的成绩(单位:

分钟)的茎叶图如图所示.

若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________.

 

工人编号

年龄

工人编号

年龄

工人编号

年龄

工人编号

年龄

1

40

10

36

19

27

28

34

2

44

11

31

20

43

29

39

3

40

12

38

21

41

30

43

4

41

13

39

22

37

31

38

5

33

14

43

23

34

32

42

6

40

15

45

24

42

33

53

7

45

16

39

25

37

34

37

8

42

17

38

26

44

35

49

9

43

18

36

27

42

36

39

4.某工厂36名工人的年龄数据如上表.

(1)用系统抽样法从36名工人中抽取容量为9的样本,且在第一分段里用随机抽样法抽到的年龄数据为44,列出样本的年龄数据;

(2)计算

(1)中样本的平均值

和方差s2;

(3)36名工人中年龄在

-s与

+s之间有多少人?

所占的百分比是多少(精确到0.01%)?

 

5.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为(  )

A.7B.9C.10D.15

 

6.某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为(  )

A.11B.12C.13D.14

 

7.(2016·重庆巴蜀一模,5)一个单位有职工800人,其中具有高级职称的160人,具有中级职称的320人,具有初级职称的200人,其余人员120人.为了解职工收入情况,决定采用分层抽样的方法,从中抽取容量为40的样本.则从上述各层中依次抽取的人数分别是(  )

A.12,24,15,9B.9,12,12,7C.8,15,12,5D.8,16,10,6

 

8.设样本数据x1,x2,…,x10的均值和方差分别为1和4,若yi=xi+a(a为非零常数,i=1,2,…,10),则y1,y2,…,y10的均值和方差分别为(  )

A.1+a,4B.1+a,4+aC.1,4D.1,4+a

 

9.若样本数据x1,x2,…,x10的标准差为8,则数据2x1-1,2x2-1,…,2x10-1的标准差为(  )

A.8B.15C.16D.32

 

10.将参加夏令营的600名学生编号为:

001,002,…,600.采用系统抽样方法抽取一个容量为50的样本,且随机抽得的号码为003,这600名学生分住在三个营区.从001到300在第Ⅰ营区,从301到495在第Ⅱ营区,从496到600在第Ⅲ营区.三个营区被抽中的人数依次为(  )

A.25,17,8B.25,16,9C.26,16,8D.24,17,9

 

11.总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为(  )

7816 6572 0802 6314 0702 4369 9728 0198

3204 9234 4935 8200 3623 4869 6938 7481

A.08B.07C.02D.01

 

分层抽样和系统抽样中的计算

(1)系统抽样

总体容量为N,样本容量为n,则要将总体均分成n组,每组

个(有零头时要先去掉).

若第一组抽到编号为k的个体,则以后各组中抽取的个体编号依次为k+

,…,k+(n-1)

.

(2)分层抽样

按比例抽样,计算的主要依据是:

各层抽取的数量之比=总体中各层的数量之比.

题型二:

频率分布直方图

1.某高校调查了200名学生每周的自习时间(单位:

小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是(  )

A.56B.60C.120D.140

 

2.为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:

cm),所得数据均在区间[80,130]上,其频率分布直方图如图所示,则在抽测的60株树木中,有________株树木的底部周长小于100cm.

3.随机观测生产某种零件的某工厂25名工人的日加工零件数(单位:

件),获得数据如下:

30,42,41,36,44,40,37,37,25,45,29,43,31,36,49,34,33,43,38,42,32,34,46,39,36.

根据上述数据得到样本的频率分布表如下:

(1)确定样本频率分布表中n1,n2,f1和f2的值;

(2)根据上述频率分布表,画出样本频率分布直方图;

(3)根据样本频率分布直方图,求在该厂任取4人,至少有1人的日加工零件数落在区间(30,35]的概率.

 

4.为了研究某药品的疗效,选取若干名志愿者进行临床试验.所有志愿者的舒张压数据(单位:

kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,…,第五组.如图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为(  )

A.6B.8C.12D.18

 

5.我国是世界上严重缺水的国家,某市政府为了鼓励居民节约用水,计划调整居民生活用水收费方案,拟确定一个合理的月用水量标准x(吨),一位居民的月用水量不超过x的部分按平价收费,超出x的部分按议价收费.为了了解居民用水情况,通过抽样,获得了某年100位居民每人的月均用水量(单位:

吨),将数据按[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.

(1)求直方图中a的值;

(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,并说明理由;

(3)若该市政府希望使85%的居民每月的用水量不超过标准x(吨),估计x的值,并说明理由.

 

6.为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(十分制)如图所示,假设得分值的中位数为me,众数为m0,平均值为

,则(  )

A.me=m0=

B.me=m0<

C.me

D.m0

 

7.如图是依据某城市年龄在20岁到45岁的居民上网情况调查而绘制的频率分布直方图,现已知年龄在[30,35),[35,40),[40,45)的上网人数呈现递减的等差数列分布,则年龄在[35,40)的网民出现的频率为(  )

A.0.04B.0.06C.0.2D.0.3

 

8.一所中学共有4000名学生,为了引导学生树立正确的消费观,需抽样调查学生每天使用零花钱的数量(取整数元)情况,分层抽取容量为300的样本,作出频率分布直方图如图所示,请估计在全校所有学生中,一天使用零花钱在6元~14元的学生大约有________人.

9.某校高三

(1)班全体女生的一次数学测试成绩的茎叶图和频率分布直方图都受到不同程度的破坏,但可见部分如图①②所示,据此解答如下问题:

(1)求高三

(1)班全体女生的人数;

(2)求分数在[80,90)之间的女生人数,并计算频率分布直方图中[80,90)之间的矩形的高;

(3)若要从分数在[80,100)之间的试卷中任取两份分析女生失分情况,在抽取的试卷中,求至少有一份分数在[90,100)之间的概率.

10.(2015·课标Ⅱ,18,12分,中)某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了20个用户,得到用户对产品的满意度评分如下:

A地区:

62 73 81 92 95 85 74 64 53 76 78 86 95 66 97 78 88 82 76 89

B地区:

73 83 62 51 91 46 53 73 64 82 93 48 65 81 74 56 54 76 65 79

(1)根据两组数据完成两地区用户满意度评分的茎叶图,并通过茎叶图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可);

(2)根据用户满意度评分,将用户的满意度从低到高分为三个等级:

满意度评分

低于70分

70分至89分

不低于90分

满意度等级

不满意

满意

非常满意

记事件C:

“A地区用户的满意度等级高于B地区用户的满意度等级”.假设两地区用户的评价结果相互独立.根据所给数据,以事件发生的频率作为相应事件发生的概率,求C的概率.

11.某城市100户居民的月平均用电量(单位:

度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.

(1)求直方图中x的值;

(2)求月平均用电量的众数和中位数及平均数;

(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?

 

12.(12分)(2014·课标Ⅰ,18)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:

质量指标值分组

[75,85)

[85,95)

[95,105)

[105,115)

[115,125)

频数

6

26

38

22

8

(1)作出这些数据的频率分布直方图;

(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);

(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?

 

题型三、线性回归方程

1.(2014·课标Ⅱ,19,12分)某地区2007年至2013年农村居民家庭人均纯收入y(单位:

千元)的数据如下表:

年 份

2007

2008

2009

2010

2011

2012

2013

年份代号t

1

2

3

4

5

6

7

人均纯收入y

2.9

3.3

3.6

4.4

4.8

5.2

5.9

(1)求y关于t的线性回归方程;

(2)利用

(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.

附:

回归直线的斜率和截距的最小二乘估计公式分别为:

.

 

2.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:

收入x(万元)

8.2

8.6

10.0

11.3

11.9

支出y(万元)

6.2

7.5

8.0

8.5

9.8

根据上表可得回归直线方程

x+

,其中

=0.76,

.据此估计,该社区一户年收入为15万元家庭的年支出为(  )

A.11.4万元B.11.8万元C.12.0万元D.12.2万元

3.根据如下样本数据

x

3

4

5

6

7

8

y

4.0

2.5

-0.5

0.5

-2.0

-3.0

得到的回归方程为

=bx+a,则(  )

A.a>0,b>0B.a>0,b<0C.a<0,b>0D.a<0,b<0

 

4.已知x与y之间的几组数据如下表:

x

1

2

3

4

5

6

y

0

2

1

3

3

4

假设根据上表数据所得线性回归直线方程为

x+

,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y′=b′x+a′,则以下结论正确的是(  )

A.

>b′,

>a′B.

>b′,

>a′D.

 

5.如图是我国2008年至2014年生活垃圾无害化处理量(单位:

亿吨)的折线图.

注:

年份代码1~7分别对应年份2008~2014.

(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;

(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.

附注:

参考数据:

yi=9.32,

tiyi=40.17,

=0.55,

≈2.646.

参考公式:

相关系数r=

回归方程

t中斜率和截距的最小二乘估计公式分别为:

.

 

6.设某大学的女生体重y(单位:

kg)与身高x(单位:

cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为

=0.85x-85.71,则下列结论中不正确的是(  )

A.y与x具有正的线性相关关系

B.回归直线过样本点的中心(

C.若该大学某女生身高增加1cm,则其体重约增加0.85kg

D.若该大学某女生身高为170cm,则可断定其体重必为58.79kg

7.已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是(  )

A.x与y负相关,x与z负相关B.x与y正相关,x与z正相关

C.x与y正相关,x与z负相关D.x与y负相关,x与z正相关

 

8.(2012·课标全国,3,易)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=

x+1上,则这组样本数据的样本相关系数为(  )

A.-1B.0C.

D.1

9.随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:

年份

2010

2011

2012

2013

2014

时间代号t

1

2

3

4

5

储蓄存款y(千亿元)

5

6

7

8

10

(1)求y关于t的回归方程

t+

 

10.表中提供了某厂节能降耗技术改造后生产A产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对应数据.根据下表提供的数据,求出y关于x的线性回归方程为

=0.7x+0.35,那么表中t的值为(  )

x

3

4

5

6

y

2.5

t

4

4.5

A.3B.3.15C.3.5D.4.5

题型四、

检验

1.2×2列联表

设X,Y为两个变量,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)如下:

y1

y2

总计

x1

a

b

a+b

x2

c

d

c+d

总计

a+c

b+d

a+b+c+d

2.独立性检验

利用随机变量K2(也可表示为χ2)=

(其中n=a+b+c+d为样本容量)来判断“两个变量有关系”的方法称为独立性检验.

独立性检验的方法

(1)构造2×2列联表;

(2)计算K2;

(3)查表确定有多大的把握判定两个变量有关联.

注意:

查表时不是查最大允许值,而是先根据题目要求的百分比找到第一行对应的数值,再将该数值对应的k值与求得的K2相比较.另外,表中第一行数据表示两个变量没有关联的可能性p,所以其有关联的可能性为1-p.

3.独立性检验的一般步骤

(1)根据样本数据列出2×2列联表;

(2)计算随机变量K2的观测值k,查下表确定临界值k0:

P(K2≥k0)

0.50

0.40

0.25

0.15

0.10

k0

0.455

0.708

1.323

2.072

2.706

P(K2≥k0)

0.05

0.025

0.010

0.005

0.001

k0

3.841

5.024

6.635

7.879

10.828

  (3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关系”.另外一种说法是有1-p的把握认为X与Y有关。

 

1.某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:

喜欢甜品

不喜欢甜品

合计

南方学生

60

20

80

北方学生

10

10

20

合计

70

30

100

(1)根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”;

(2)已知在被调查的北方学生中有5名数学系的学生,其中2名喜欢甜品,现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.

附:

K2=

P(

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 经管营销 > 财务管理

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1