统计典型例题Word文档格式.docx
《统计典型例题Word文档格式.docx》由会员分享,可在线阅读,更多相关《统计典型例题Word文档格式.docx(11页珍藏版)》请在冰豆网上搜索。
2.1.3分层抽样
一个单位有职工160人,其中有业务员112人,管理人员16人,后勤服务人员32人,为了解职工的工作效率,要从中抽取容量为20的样本,用分层抽样的方法进行抽样,写出过程。
分层抽样中各层抽取的个体数依据各层个体数之比来分配,确定各层抽取的个体数之后,可采用简单随机抽样或者系统随机抽样在各层中抽取个体。
首先,三部分所含个体数之比为112:
16:
32=7:
1:
2,设三部分各抽个体数为7X,X,2X,则由7X+X+2X=20得X=2。
故业务人员、管理人员、后勤服务人员抽取的个数分别为:
14,2和4.然后,对三部分人员分别按照系统抽样或者随机抽样的办法选出相应的人,这样就得到了一个容量为20的样本。
拓展提升:
解决此类问题的关键在于对概念的正确理解以及在每一次抽样的步骤中所采用的抽样方法,应注意语言叙述的完整性。
2.2.1用样本的频率分布估计总体分布
例题1:
有一容量为50的样本,数据的分组及各组的频率数如下:
.
(1)列出样本的频率分布表;
(2)画出频率分布直方图.
(3)估计总体数据出现在[10,25)的概率
(1)由所给数据,不难得出样本的频率分布表:
数据段
总计
频数
4
5
10
11
9
8
3
50
频率
0.08
0.10
0.20
0.22
0.18
0.16
0.06
1.00
(2)频率分布直方图:
(3)由频率分布直方表可以看出,数据出现在[10,25)的频率是0.38,所以我们估计总体出现在这段范围的概率为0.38
总体分布反映了总体在各个范围内取值的概率,利用样本的频率分布,可以近似地估计总体分布,利用样本在某一范围的频率,可以近似地估计总体在这一范围的概率。
对每一组样本取其一代表值,一般去其中值,近似的看成离散型变量,可以近似的估计出其总体的均值。
例题2:
.某赛季甲、乙两个篮球运动员每场比赛的得分情况如下:
甲:
11,15,24,26,31,31,36,36,37,39,44,49,50
乙:
7,13,14,16,23,26,27,33,38,39,51
(1)请你用茎叶图表示上面的数据;
(2)将这两组数据进行比较分析,得到什么结论?
(1)用茎叶图表示如下:
(2)从茎叶图中可看到甲运动员每场比赛的得分情况大致对称,中位数为36;
乙运动员每场比赛的得分情况除一个特殊得分外,也大致对称,中位数为26.因此甲运动员的得分发挥比较稳定,总体得分高于乙运动员.
2.2.2用样本的数字特征估计总体数字特征
例1:
甲、乙两种冬小麦试验品连续5年的平均单位面积产量见表
品种
第1年
第2年
第3年
第4年
第5年
甲
9.8
9.9
10.1
10.2
乙
9.4
10.3
10.8
9.7
(1)求两种小麦的平均年产量
(2)试根据这组数据估计哪一种小麦品种产量较稳定
答案:
(1)10,10
(2)
,
即甲稳定.
方差(标准差)体现了一组数据的波动大小。
方差越大,样本数据的波动就越大,稳定性就越差。
本题中,比较产量的稳定性就是在比较波动的大小。
【举一反三】某化肥厂甲、乙两个车间包装肥料,在自动包装传送带上每隔30分钟抽取一包产品,称其重量,分别记录抽查数据如下:
102,101,99,98,103,98,99;
110,115,90,85,75,115,110.
(1)这种抽样方法是哪一种?
(2)估计甲、乙两个车间产品的平均数与方差,并说明哪个车间产品较稳定?
解:
(1)这种抽样方法是系统抽样;
(2)甲车间的平均数为
甲车间的方差
乙车间的平均数为
乙车间的方差为
,所以甲车间产品较稳定.
2.3变量间的相关关系
下列关系中,带有相关关系的是(BD)
A.正方形的变长与面积之间的关系
B.水稻产量与施肥之间的关系
C.人的身高与年龄之间的关系
D.降雪量与交通事故之间的关系
两变量之间的相互关系有两种:
函数关系和带有随机性的相关关系。
A为函数关系B为不严格的函数关系,因而是相关关系C人的身高与年龄不是函数关系,也不是相关关系,因为人的年龄到了一定时期身高就不会发生明显变化了,因而它们不具有相关关系。
D降雪量与交通事故的发生之间具有相关关系
变量间存在两种关系:
函数关系和相关关系,前者是确定的,后者是不确定的,数学中只有统计部分研究不确定关系。
例2:
假设关于某种设备的使用年限x和所支出的维修费用y(万元)有如下统计资料:
年限x
2
6
维修费y
2.2
3.8
5.5
6.5
7.0
若y对x呈线性关系,求
(1)线性回归方程
(2)估计是用年限为10年时维修费用是多少?
知道y与x是线性相关关系,无需再进行相关性检验,直接利用公式求回归系数。
否则应先进行检验。
如果两个变量不是相关关系,即使求取回归方程也毫无意义,因为用这个方程估测是不准的。
(1)
4,
=5,
=90,
=112.3
于是
a=
=5-1.23
=0.08回归方程为y=1.23x+0.08
(2)当x=10年时,代入方程得维修费大约是12.38万元
例3:
下表是某小卖部6天卖出热茶的杯数与当天气温的对比表:
气温/℃
26
18
13
-1
杯数
20
24
34
38
64
(1)将上表中的数据制成散点图.
(2)你能从散点图中发现温度与饮料杯数近似成什么关系吗?
(3)如果近似成线性关系的话,请求出回归直线方程来近似地表示这种线性关系.
(4)如果某天的气温是-5℃时,预测这天小卖部卖出热茶的杯数.
(2)相关关系(3)
=0.08+6.06x;
(4)x0=4.5+0.5=5,代入得
=30.38,
所以煤气量约达3038万立方米.
在尚未断定两个变量是否具有相关性情况下,应该先进行相关检验,在确认具有相关关系后,再求其回归方程并用方程估计。
选修2-33.1回归分析的基本思想及其初步应用
某种书每册的成本费y(元)与印刷册数x(千册)有关,经统计得到数据如下:
x
1
30
100
200
y
10.15
5.52
4.08
2.85
2.11
1.62
1.41
1.30
1.21
1.15
检验每册书的成本费y与印刷册数的倒数
之间是否具有线性相关关系,如有,求出y对x的回归方程。
首先设变量
,题目所给的数据变成如下表所示的数据
0.5
0.33
0.2
0.1
0.05
0.03
0.02
0.01
0.005
经计算得
从而认为
与y之间具有线性相关关系,
由公式得
最后回代
,可得
进行相关检验,有时也用作散点图,并观察所给的数据列成的点是否在一条直线附近,这样既直观又方便。
但由于存在误差,有时又很难说这些点是否分布在一条直线附近,这时必须用样本相关系数对其进行相关性检验。
为了研究某种细菌随时间x变化,繁殖的个数,收集数据如下:
天数x/天
1
2
3
5
繁殖个数y/个
6
12
25
49
95
190
(1)用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图
(2)描述解释变量与预报变量之间的关系
(3)计算残差、相关指数R2.
(1)略
(2)由散点图看出样本点分布在一条指数函数y=
的周围,于是令Z=lny,则
Z
1.79
2.48
3.22
3.89
4.55
5.25
由计数器算得
则有
(3)
6.06
12.09
24.09
48.04
95.77
190.9
12
25
49
95
=
=3.1643
=25553.3
R2=1-
=0.9999
即解释变量天数对预报变量繁殖细菌得个数解释了99.99%.
非线性回归问题有时候并不给出经验公式。
这时我们可以画出散点图,把他与学过的各种函数比如幂指对函数图象做比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的置换,把问题化为线性回归分析问题。
3.2独立性检验的基本思想及其初步应用
参考数据:
P(k2>
k)
0.50
0.40
0.25
0.15
0.05
0.025
0.010
0.005
0.001
k
0.455
0.708
1.323
2.072
2.706
3.84
5.024
6.635
7.879
10.83
利用独立性检验来考虑两个分类变量X和Y是否有关系时,通过查阅上表来确定断“X和Y有关系”的可信度。
如果k>
5.024,那么就有把握认为“X和Y有关系”的百分比为(D)