高考数学统计概念汇总(文)保密不下后悔山东省重点中学Word文件下载.doc
《高考数学统计概念汇总(文)保密不下后悔山东省重点中学Word文件下载.doc》由会员分享,可在线阅读,更多相关《高考数学统计概念汇总(文)保密不下后悔山东省重点中学Word文件下载.doc(10页珍藏版)》请在冰豆网上搜索。
它是逐个地进行抽取;
它是一种等概率抽样。
系统抽样:
当总体中的个数较多时,可将总体分成均衡的几个部分,然后按照预先定出的规则,从每一部分抽取1个个体,得到所需要的样本,这种抽样叫做系统抽样(也称为机械抽样)。
系统抽样的步骤可概括为:
(1)将总体中的个体编号。
采用随机的方式将总体中的个体编号;
(2)将整个的编号进行分段。
为将整个的编号进行分段,要确定分段的间隔.当是整数时,;
当不是整数时,通过从总体中剔除一些个体使剩下的个体数N´
能被整除,这时;
(3)确定起始的个体编号。
在第1段用简单随机抽样确定起始的个体边号;
(4)抽取样本。
按照先确定的规则(常将加上间隔)抽取样本:
。
分层抽样:
当已知总体由差异明显的几部分组成时,常将总体分成几部分,然后按照各部分所占的比进行抽样,这种抽样叫做分层抽样,其中所分成的各部分叫做层。
分层抽样的步骤:
①分层;
②按照比例确定每层抽取的人数;
③各层抽样;
(方法可以是简单随机抽样也可以是系统抽样)④汇合成样本.
(1)分层抽样是等概率抽样,它也是公平的。
用分层抽样从个体数为N的总体中抽取一个容量为的样本时,在整个抽样过程中每个个体被抽到的概率相等,都等于;
(2)分层抽样是建立在简单随机抽样或系统抽样的基础上的,由于它充分利用了已知信息,因此利用它获取的样本更具有代表性,在实践的应用更为广泛。
常用的抽样方法及它们之间的联系和区别:
类别
共同点
各自特点
相互联系
适用范围
简单随机抽样
抽样过程中每个个体被抽取的概率是相同的
从总体中逐个抽取
总体中的个数比较少
系统抽样
将总体均匀分成几个部分,按照事先确定的规则在各部分抽取
在起始部分抽样时采用简单随机抽样
总体中的个数比较多
分层抽样
将总体分成几层,分层进行抽取
各层抽样时采用简单抽样或者相同抽样
总体由差异明显的几部分组成
总体分布的估计:
由于总体分布通常不易知道,往往用样本的频率分布估计总体分布,样本的容量越大,估计越精确。
编制频率分布表的方法步骤:
①求极差;
②决定组距与组数;
③决定分点,将数据分组;
④登记频数,计算频率,列出频率分布表.
频率分布条形图
当总体中个体取不同数值很少时步骤(列频率分布表,画条形图)
频率分布直方图
总体的个体取不同值较多甚至无限时
步骤:
(1)求极差(即一组数据中最大值与最小值的差);
(2)决定组距与组数;
(3)将数据分组;
(4)列频率分布表;
(5)画频率分布直方图。
频率分布折线图:
把频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率分布折线图.横轴上的左右端点没有实际意义;
当样本容量越大,所分组数越多,折线图将越接近于总体密度曲线.
茎叶图:
用中间的数字表示数据的十位数,两边的数字表示数据的个位数,茎按从小到大的顺序从上向下列出,共茎的叶一般按从大到小(或从小到大)的顺序同行列出,
这样的图叫做茎叶图.
优点:
一是从统计图上没有原始信息的损失,所有的数据信息都可以从茎叶图中得到;
二是茎叶图便于记录与表示.
缺点:
其分析只是粗略的,对差异不大的两组数据不易分析;
表示三位数以上的数据时不够方便.
中位数:
将数据按从小到大或从大到小,处在中间的数据;
但当数据为偶数个时,处于中间两个的数据的平均数为中位数;
众数:
在数据中出现次数最多的数。
但众数不一定是唯一的。
平均数:
如果这n个数据是,那么叫做这n个数据平均数;
样本方差、样本标准差:
设样本元素为,样本的平均数为,定义,
其中表示样本方差,表示样本标准差.
相关关系:
自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系.与函数关系不同,相关关系是一种非确定性关系.
散点图:
具有相关关系的两个变量的数据所对应的图形,不是一条确定的直线,而是一些散乱得点,这个图形叫散点图.
回归直线方程:
设和是具有相关关系的两个变量.且相应于组观测值的的个点大致分布在一条直线附近,这条直线就是回归直线.回归直线的方程叫做回归直线方程.该方程为、叫回归系数.其中,.
最小二乘法:
为了刻画实际观察值与回归直线上相应点纵坐标的偏离程度,我们用离差的平方和,即作为总离差,并使之达到最小.这样,回归直线就是所有直线中取最小值的那一条.由于平方又叫二乘法,所以这种使“离差平方和为最小”的方法,又叫最小二乘法.
样本相关系数:
对于变量与的一组观测值来说,我们把
叫做变量与之间的样本相关系数(简称相关系数),用它来衡量它们之间的线性相关程度.具有以下性质:
,且越接近,线性相关程度越强;
越接近,线性相关程度越弱.若则称、完全线性相关.
相关性检验的步骤:
(1)作统计假设:
与不具有相关性相关关系.
(2)根据小概率与附表中查出的一个临界值.(3)根据样本相关系数计算公式算出的值.(4)作统计推断.如果,表明有的把握认为与之间具有线性相关关系.
独立性检验:
,当时,有的把握说事件与有关;
当时,有的把握说事件与有关.当时,认为事件与是无关的.
例 一个工厂在某年里每月产品的总成本y(万元)与该月产量x(万件)之间由如下一组数据:
x
1.08
1.12
1.19
1.28
1.36
1.48
1.59
1.68
1.80
1.87
1.98
2.07
y
2.25
2.37
2.40
2.55
2.64
2.75
2.92
3.03
3.14
3.26
3.36
3.50
1)画出散点图;
2)检验相关系数r的显著性水平;
3)求月总成本y与月产量x之间的回归直线方程.
解析:
1
2
3
4
5
6
7
8
9
10
11
12
2.43
2.264
2.856
3.264
3.590
4.07
4.643
5.090
5.652
6.096
6.653
7.245
=,==2.8475,=29.808,=99.2081,=54.243
1)画出散点图:
2)检验相关系数r的显著性水平
r=
=
在“相关系数检验的临界值表”查出与显著性水平0.05及自由度12-2=10相应的相关数临界值r0.05=0.576<
0.997891,这说明每月产品的总成本y(万元)与该月产量x(万件)之间存在线性相关关系。
3)设回归直线方程,
利用
,
计算a,b,得b≈1.215,a=≈0.974,
∴回归直线方程为:
例 为了探究患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,调查结果如下表所示:
患慢性气管炎
未患慢性气管炎
合计
吸烟
43
162
205
不吸烟
13
121
134
56
283
339
试问:
50岁以上的人患慢性气管炎与吸烟习惯有关吗?
由公式,因为7.469>
6.635,所以我们有99%的把握说:
50岁以上的人患慢性气管炎与吸烟习惯有关。
例 对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:
又发作过心脏病
未发作过心脏病
心脏搭桥手术
39
157
196
血管清障手术
29
167
68
324
392
试根据上述数据比较这两种手术对病人又发作心脏病的影响有没有差别。
由公式,因为1.78>
3.841,所以我们没有理由说“心脏搭桥手术”与“又发作过心脏病”有关,可以认为病人又发作与否与其做过任何手术无关。
例 为检测,某种产品的质量,抽取了一个容量为30的样本,检测结果为一级品5件,而极品8件,三级品13件,次品14件.
(1)列出样本频率分布表;
(2)画出表示样本频率分布的条形图;
(3)根据上述结果,估计辞呈商品为二极品或三极品的概率约是多少
(1)样本的频率分布表为
产品
频数
频率
一级晶
5
0.17
二级晶
8
0.27
三级晶
13
0.43
次品
4
0.13
(2)样本频率分布的条形图为:
(3)此种产品为二极品或三极品的概率约为0.27+0.43=0.7。
点评:
条形图中纵坐标一般是频数或频率。
例 某中学对高三年级进行身高统计,测量随机抽取的40名学生的身高,其结果如下(单位:
cm)
分组
[140,145)
[145,150)
[150,155)
[155,160)
[160,165)
[165,170)
[170,175)
[175,180)
人数
40
(1)列出频率分布表;
(2)画出频率分布直方图;
(3)估计数据落在[150,170]范围内的概率。
(1)根据题意可列出频率分布表:
分 值
频 数
频 率
[140,145]
0.025
[145,150]
0.050
[150,155]
0.125
[155,160]
0.225
[160,165]
0.325
[165,170]
0.15
[170,175]
0.075
[175,180]
合 计
1.00
(2)频率分布直方图如下:
(3)数据落在[150,170]范围内的概率约为0.825。