模块《统计与统计案例》.docx

上传人:b****5 文档编号:7434861 上传时间:2023-01-23 格式:DOCX 页数:25 大小:149.18KB
下载 相关 举报
模块《统计与统计案例》.docx_第1页
第1页 / 共25页
模块《统计与统计案例》.docx_第2页
第2页 / 共25页
模块《统计与统计案例》.docx_第3页
第3页 / 共25页
模块《统计与统计案例》.docx_第4页
第4页 / 共25页
模块《统计与统计案例》.docx_第5页
第5页 / 共25页
点击查看更多>>
下载资源
资源描述

模块《统计与统计案例》.docx

《模块《统计与统计案例》.docx》由会员分享,可在线阅读,更多相关《模块《统计与统计案例》.docx(25页珍藏版)》请在冰豆网上搜索。

模块《统计与统计案例》.docx

模块《统计与统计案例》

第一节直线的倾斜角与斜率、直线的方程

【归纳·知识整合】

1.简单随机抽样

(1)抽取方式:

不放回抽取;

(2)每个个体被抽到的概率相等;

(3)常用方法:

抽签法和随机数法.

2.系统抽样的步骤

假设要从容量为N的总体中抽取容量为n的样本.

(1)先将总体的N个个体编号;

(2)确定分段间隔k,对编号进行分段.当

(n是样本容量)是整数时,取k=

(3)在第1段用简单随机抽样确定第一个个体编号l(l≤k);

(4)按照一定的规则抽取样本,通常是将l加上间隔k得到第2个个体编号l+k,再加k得到第3个个体编号l+2k,依次进行下去,直到获取整个样本.

3.分层抽样

(1)定义:

在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.

(2)分层抽样的应用范围:

当总体是由差异明显的几个部分组成时,往往选用分层抽样.

[探究] 1.简单随机抽样有什么特点?

提示:

(1)被抽取样本的总体个数N是有限的;

(2)样本是从总体中逐个抽取的;(3)是一种不放回抽样;(4)是等可能的抽取.

[探究] 2.系统抽样有什么特点?

提示:

适用于元素个数很多且均衡的总体;各个个体被抽到的机会均等;总体分组后,在起始部分抽样时,采用简单随机抽样.

[探究] 3.分层抽样有什么特点?

提示:

适用于总体由差异明显的几部分组成的情况;分层后,在每一层抽样时可采用简单随机抽样或系统抽样.

 

【自测·牛刀小试】

1.在抽样过程中,每次抽取的个体不再放回总体的为不放回抽样,在分层抽样、系统抽样、简单随机抽样三种抽样中,不放回抽样有(  )

A.0个        B.1个

C.2个D.3个

2.(2013·温州模拟)某工厂生产A,B,C三种不同型号的产品,产品数量之比为3∶4∶7,现在用分层抽样的方法抽出容量为n的样本,样本中A型号产品有15件,那么样本容量n为(  )

A.50B.60

C.70D.80

3.利用简单随机抽样,从n个个体中抽取一个容量为10的样本.若第二次抽取时,余下的每个个体被抽到的概率为

,则在整个抽样过程中,每个个体被抽到的概率为(  )

A.

B.

C.

D.

4.某单位青年、中年、老年职员的人数之比为10∶8∶7,从中抽取200名职员作为样本,若每人被抽到的概率为0.2,则该单位青年职员的人数为________.

5.(2012·湖北高考)一支田径运动队有男运动员56人,女运动员42人.现用分层抽样的方法抽取若干人,若抽取的男运动员有8人,则抽取的女运动员有________人.

考点一

简单随机抽样

【例1】 为了支援我国西部教育事业,决定从2011级学生报名的30名志愿者中,选取10人组成志愿小组,请用抽签法和随机数表法设计抽样方案.

 

把本例中“30名志愿者”改为“1800名志愿者”,仍抽取10人,应如何进行抽样?

 

—————

——————————————

应用简单随机抽样应注意的问题

(1)一个抽样试验能否用抽签法,关键看两点:

一是抽签是否方便;二是号签是否易搅匀.一般地,当总体容量和样本容量都较小时可用抽签法.

(2)在使用随机数表时,如遇到三位数或四位数时,可从选择的随机数表中的某行某列的数字计起,每三个或四个作为一个单位,自左向右选取,有超过总体号码或出现重复号码的数字舍去.

1.今用简单随机抽样从含有6个个体的总体中抽取一个容量为2的样本.问:

(1)总体中的某一个体a在第一次抽取时被抽到的概率是多少?

(2)个体a不是在第一次被抽到,而是在第二次被抽到的概率是多少?

(3)在整个抽样过程中,个体a被抽到的概率是多少?

 

考点二

系统抽样

【例2】(2012·山东高考)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C,则抽到的人中,做问卷B的人数为(  )

A.7        B.9

C.10D.15

—————

——————————————

解决系统抽样应注意的几个问题

(1)适合元素个数较多且均衡的总体;

(2)各个个体被抽到的机会均等;

(3)样本的第一个个体用简单随机抽样.

2.为规范学校办学,省教育厅督察组对某所高中进行了抽样调查.抽到的班级一共有52名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为4的样本,已知7号、33号、46号同学在样本中,那么样本中还有一位同学的编号应是(  )

A.13B.19

C.20D.51

 

考点三

分层抽样

【例3】某学校共有教职工900人,分成三个批次进行教育培训,在三个批次中男、女教职工人数如下表所示.已知在全体教职工中随机抽取1名,抽到第二批次中女教职工的概率是0.16.

第一批次

第二批次

第三批次

女教职工

196

x

y

男教职工

204

156

z

(1)求x的值;

(2)现用分层抽样的方法在全体教职工中抽取54名做培训效果的调查,问应在第三批次中抽取教职工多少名?

 

—————

——————————————

分层抽样的步骤

第一步:

将总体按一定标准分层;

第二步:

计算各层的个体数与总体数的比,按各层个体数占总体数的比确定各层应抽取的样本容量;

第三步:

在每一层进行抽样(可用简单随机抽样或系统抽样).

3.(2012·天津高考)某地区有小学150所,中学75所,大学25所.现采用分层抽样的方法从这些学校中抽取30所学校对学生进行视力调查,应从小学中抽取____________所学校,中学中抽取____________所学校.

1组比较——三种抽样方法的比较

类别

共同点

各自特点

相互联系

适用范围

简单随机抽样

抽样过程中每个个体被抽取的机会相等

从总体中逐个抽取

总体中的个体数较少

系统抽样

将总体均分成几部分,按事先确定的规则在各部分抽取

在起始部分抽样时采用简单随机抽样

总体中的个体数较多

分层抽样

将总体分成几层进行抽取

各层抽样时采用简单随机抽样或系统抽样

总体由差异明显的几部分组成

易误警示——抽样方法中的解题误区

【典例】 (2012·江苏高考)某学校高一、高二、高三年级的学生人数之比是3∶3∶4,现用分层抽样的方法从该校高中三个年级的学生中抽取容量为50的样本,则应从高二年级抽取________名学生.

【变式训练】

1.从2006名学生中选取50名组成参观团,若采用下面的方法选取:

先用简单随机抽样从2006人中剔除6人,剩下的2000人再按照系统抽样的方法进行,则每人入选的概率(  )

A.不全相等           B.均不相等

C.都相等,且为

D.都相等,且为

 

2.中央电视台在因特网上就观众对2013年春节晚会这一节目的喜爱程度进行调查,参加调查的总人数为12000,其中持各种态度的人数如表所示:

很喜爱

喜爱

一般

不喜爱

2435

4600

3926

1039

电视台为进一步了解观众的具体想法和意见,打算从中抽取60人进行更为详细的调查,其中持“喜爱”态度的观众应抽取________人.

 

第二节用样本估计总体

【归纳·知识整合】

1.作频率分布直方图的步骤

(1)求极差(即一组数据中最大值与最小值的差);

(2)决定组距与组数;

(3)将数据分组;

(4)列频率分布表;

(5)画频率分布直方图.

2.频率分布折线图和总体密度曲线

(1)频率分布折线图:

连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.

(2)总体密度曲线:

随着样本容量的增加,作图时所分组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,即总体密度曲线.

3.茎叶图的优点

茎叶图的优点是可以保留原始数据,而且可以随时记录,方便记录与表示.

4.标准差和方差

(1)标准差是样本数据到平均数的一种平均距离.

(2)标准差:

s=

.

(3)方差:

s2=

[(x1-

)2+(x2-

)2+…+(xn-

)2](xn是样本数据,n是样本容量,

是样本平均数).

5.利用频率分布直方图估计样本的数字特征

(1)中位数:

在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值.

(2)平均数:

平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.

(3)众数:

在频率分布直方图中,众数是最高的矩形的中点的横坐标.

[探究] 1.在频率分布直方图中如何确定中位数?

提示:

在频率分布直方图中,中位数左边和右边的直方图的面积是相等的.

[探究] 2.利用茎叶图求数据的中位数的步骤是什么?

提示:

(1)将茎叶图中数据按大小顺序排列;

(2)找中间位置的数.

【自测·牛刀小试】

1.(2012·山东高考)在某次测量中得到的A样本数据如下:

82,84,84,86,86,86,88,88,88,88.若B样本数据恰好是A样本数据每个都加2后所得数据,则A,B两样本的下列数字特征对应相同的是(  )

A.众数        B.平均数

C.中位数D.标准差

 

15

5

5

7

8

16

1

3

3

5

17

1

2

2.(2011·安庆模拟)如图是根据某校10位高一同学的身高(单位:

cm)画出的茎叶图,其中左边的数字从左到右分别表示学生身高的百位数字和十位数字,右边的数字表示学生身高的个位数字,从图中可以得到这10位同学身高的中位数是(  )

A.161B.162

C.163D.164

 

3.某校举行2013年元旦汇演,七位评委为某班的小品打出的分数如下茎叶统计图,去掉一个最高分和一个最低分,所剩数据的方差为________.

7

9

8

4

4

6

4

7

9

3

.

 

4.从一堆苹果中任取10只,称得它们的质量如下(单位:

克):

125,120,122,105,130,114,116,95,120,134,则样本数据落在[114.5,124.5)内的频率为________.

 

5.(2012·大同模拟)将容量为n的样本中的数据分为6组,绘制频率分布直方图,若第一组至第六组的数据的频率之比为2∶3∶4∶6∶4∶1,且前三组数据的频数之和为27,则n=________.

 

考点一

频率分布直方图的应用

【例1】 

(1)在样本频率分布直方图中,共有11个小长方形,若中间一个小长方形的面积等于其他10个小长方形面积和的

,且样本容量为160,则中间一组的频数为(  )

A.32          B.0.2

C.40D.0.25

 

(2)某区高二年级的一次数学统考中,随机抽取200名同学的成绩,成绩全部在50分至100分之间,将成绩按如下方式分成5组:

第一组,成绩大于等于50分且小于60分;第二组,成绩大于等于60分且小于70分;……第五组,成绩大于等于90分且小于等于100分,据此绘制了如图所示的频率分布直方图.则这200名同学中成绩大于等于80分且小于90分的学生有______名.

 

—————

——————————————

频率分布直方图反映了样本的频率分布

(1)在频率分布直方图中纵坐标表示

频率=组距×

.

(2)频率分布表中频率的和为1,故频率分布直方图中各长方形的面积和为1.

1.已知一个样本容量为100的样本数据的频率分布直方图如图所示,样本数据落在[6,10)内的样本频数为________,样本数据落在[2,10)内的频率为________.

 

考点二

数字特征的应用

【例2】 (2012·安徽高考)甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则(  )

A.甲的成绩的平均数小于乙的成绩的平均数

B.甲的成绩的中位数等于乙的成绩的中位数

C.甲的成绩的方差小于乙的成绩的方差

D.甲的成绩的极差小于乙的成绩的极差

 

—————

——————————————

样本数字特征及公式推广

(1)平均数和方差都是重要的数字特征,是对总体一种简明的阐述.平均数、中位数、众数描述总体的集中趋势,方差和标准差描述波动大小.

(2)平均数、方差公式的推广

若数据x1,x2,…,xn的平均数为

,方差为s2,则数据mx1+a,mx2+a,…,mxn+a的平均数为m

+a,方差为m2s2.

2.为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(十分制)如图所示,假设得分值的中位数为me,众数为m0,平均值为

,则(  )

A.me=m0=

        B.me=m0<

C.me

D.m0

考点三

茎叶图的应用

【例3】某校高三年级进行了一次数学测验,随机从甲、乙两班各抽取6名同学,所得分数的茎叶图如图所示.

甲班

2

9

1

7

0

8

0

3

6

6

2

7

2

5

8

6

(1)根据茎叶图判断哪个班的平均分数较高,并说明理由;

(2)现从甲班这6名同学中随机抽取两名同学,求他们的分数之和大于165分的概率.

 

—————

——————————————

茎叶图的优缺点

由茎叶图可以清晰地看到数据的分布情况,这一点同频率分布直方图类似.它优于频率分布直方图的第一点是从茎叶图中能看到原始数据,没有任何信息损失,第二点是茎叶图便于记录和表示.其缺点是当样本容量较大时,作图较繁琐.

0

8

9

1

0

3

5

3.(2012·湖南高考)如图是某学校一名篮球运动员在五场比赛中所得分数的茎叶图,则该运动员在这五场比赛中得分的方差为________.

(注:

方差s2=

[(x1-

)2+(x2-

)2+…+(xn-

)2],其中

为x1,x2,…,xn的平均数)

 

4.随机抽取某中学甲、乙两班各10名同学,测量他们的身高(单位:

cm),获得身高数据的茎叶图(中间的数字表示身高的百位、十位数,旁边的数字分别表示身高的个位数)如图所示.

甲班       乙班

2

18

1

9

8

1

0

17

2

5

6

6

9

8

8

4

2

16

3

5

9

8

15

7

(1)根据茎叶图判断哪个班的平均身高较高;

(2)计算甲班的样本方差.

 

2个异同——众数、中位数和平均数的异同,标准差和方差的异同

(1)众数、中位数和平均数的异同

①众数、中位数和平均数都是描述一组数据集中趋势的量,平均数是最重要的量.

②由于平均数与每一个样本数据有关,所以任何一个样本数据的改变都会引起平均数的改变,这是众数和中位数都不具有的性质.

③众数考查各数据出现的频率,其大小只与这组数据中部分数据有关.当一组数据中有不少数据多次重复出现时,其众数往往更能反映问题.

④某些数据的改动对中位数可能没有影响,中位数可能出现在所给的数据中,也可能不在所给的数据中.当一组数据中的个别数据变动较大时,可用中位数描述其集中趋势.

(2)标准差和方差的异同

标准差和方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度就越大;标准差、方差越小,数据的离散程度则越小.因为方差与原始数据的单位不同,且平方后可能夸大了偏差程度,所以虽然方差与标准差在刻画样本数据的分散程度上是一样的,但在解决实际问题时,一般多采用标准差.

2个区别——直方图与条形图的区别

不要把直方图错以为条形图,两者的区别在于条形图是离散随机变量,纵坐标刻度为频数或频率,直方图是连续随机变量,纵坐标刻度为频率/组距,这是密度,连续随机变量在某一点上是没有频率的.

易误警示——频率分布直方图中的易误点

【典例】 (2012·山东高考)如图是根据部分城市某年6月份的平均气温(单位:

℃)数据得到的样本频率分布直方图,其中平均气温的范围是[20.5,26.5],样本数据的分组为[20.5,21.5),[21.5,22.5),[22.5,23.5),[23.5,24.5),[24.5,25.5),[25.5,26.5].已知样本中平均气温低于22.5℃的城市个数为11,则样本中平均气温不低于25.5℃的城市个数为________.

 

【变式训练】

对某种电子元件的使用寿命进行跟踪调查,所得样本的频率分布直方图如图所示,由图可知,这一批电子元件中使用寿命在100~300h的电子元件的数量与使用寿命在300~600h的电子元件的数量的比是________.

 

第三节变量间的相关关系

【归纳·知识整合】

1.两个变量的线性相关

(1)正相关:

在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.

(2)负相关:

在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.

(3)线性相关关系、回归直线

如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.

2.回归方程

(1)最小二乘法:

求回归直线使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.

(2)回归方程:

方程

x+

是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中

是待定参数.

3.残差分析

(1)残差:

对于样本点(x1,y1),(x2,y2),…,(xn,yn),它们的随机误差为ei=yi-bxi-a,i=1,2,…,n,其估计值为

i=yi-

i=yi-

xi-

,i=1,2,…,n,

i称为相应于点(xi,yi)的残差.

(2)相关指数R2=1-

,R2越大,意味着残差平方和越小,即模型的拟合效果越好;R2越小,残差平方和越大,即模型的拟合效果越差.在线性回归模型中,R2表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示回归的效果越好.

4.独立性检验

(1)分类变量:

变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.

(2)列联表:

列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为

2×2列联表:

y1

y2

总计

x1

a

b

a+b

x2

c

d

c+d

总计

a+c

b+d

a+b+c+d

K2=

(其中n=a+b+c+d为样本容量),则利用独立性检验判断表来判断“X与Y的关系”.

[探究] 相关关系和函数关系有何异同点?

提示:

(1)相同点:

两者均是指两个变量的关系.

(2)不同点:

①函数关系是一种确定的关系,而相关关系是一种非确定的关系.②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.

 

【自测·牛刀小试】

1.下列结论正确的是(  )

①函数关系是一种确定性关系;

②相关关系是一种非确定性关系;

③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;

④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.

A.①②        B.①②③

C.①②④D.①②③④

2.已知x,y的取值如下表,从散点图可以看出y与x线性相关,且回归方程为y=0.95x+a,则a=(  )

x

0

1

3

4

y

2.2

4.3

4.8

6.7

A.3.25B.2.6

C.2.2D.0

3.工人月工资y(元)关于劳动生产率x(千元)的回归方程为y=650+80x,下列说法中正确的个数是(  )

①劳动生产率为1000元时,工资为730元;

②劳动生产率提高1000元,则工资提高80元;

③劳动生产率提高1000元,则工资提高730元;

④当月工资为810元时,劳动生产率约为2000元.

A.1B.2

C.3D.4

4.一位母亲记录了自己儿子3~9岁的身高数据(略),由此建立的身高与年龄的回归模型为

=7.19x+73.93,用这个模型预测这个孩子10岁时的身高,则正确的叙述是(  )

A.身高一定是145.83cm

B.身高在145.83cm以上

C.身高在145.83cm左右

D.身高在145.83cm以下

 

5.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是(  )

A.若K2的观测值为k=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病

B.从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,我们说某人吸烟,那么他有99%的可能患有肺病

C.若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误

D.以上三种说法都不正确

 

考点一

相关关系的判断

【例1】在某地区的12~30岁居民中随机抽取了10个人的身高和体重的统计资料如表:

身高(cm)

143

156

159

172

165

体重(kg)

41

49

61

79

68

身高(cm)

171

177

161

164

160

体重(kg)

69

74

69

68

54

根据上述数据,画出散点图并判断居民的身高和体重之间是否有相关关系.

[自主解答] 以x轴表示身高,y轴表示体重,可得到相应的散点图如图所示.

由散点图可知,两者之间具有相关关系,且为正相关.

 

—————

——————————————

利用散点图判断相关关系的技巧

(1)在散点图中如果所有的样本点都落在某一函数的曲线上,就用该函数来描述变量间的关系,即变量之间具有函数关系.

(2)如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.

(3)如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.

1.变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则(  )

A.r2<r1<0         B.0<r2<r1

C.r2<0<r1D.r2=

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 农林牧渔 > 林学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1