01 统计问题.docx
《01 统计问题.docx》由会员分享,可在线阅读,更多相关《01 统计问题.docx(17页珍藏版)》请在冰豆网上搜索。
01统计问题
01统计问题
1.1.1简单随机抽样
1.总体和样本:
在统计学中,把研究对象的全体叫做总体.把每个研究对象叫做个体.把总体中个体的总数叫做总体容量.为了研究总体
的有关性质,一般从总体中随机抽取一部分:
,
,
,
研究,我们称它为样本.其中个体的个数称为样本容量.
2.简单随机抽样:
也叫纯随机抽样。
通常只是在总体单位之间差异程度较小和数目较少时,才采用这种方法。
3.简单随机抽样常用的方法:
(1)抽签法;⑵随机数表法;⑶计算机模拟法;⑷使用统计软件直接抽取。
在简单随机抽样的样本容量设计中,主要考虑:
①总体变异情况;②允许误差范围;③概率保证程度。
4.抽签法:
(1)给调查对象群体中的每一个对象编号;
(2)准备抽签的工具,实施抽签
(3)对样本中的每一个个体进行测量或调查
5.随机数表法:
(略)
1.1.2系统抽样
1.系统抽样(等距抽样或机械抽样):
把总体的单位进行排序,再计算出抽样距离,然后按照这一固定的抽样距离抽取样本。
第一个样本采用简单随机抽样的办法抽取。
(1)
(2)若第一个样本的编号为
,则第i个样本的编号为:
1.1.3分层抽样
分层抽样(类型抽样):
先将总体中的所有单位按照某种特征或标志(性别、年龄等)划分成若干类型或层次,然后再在各个类型或层次中采用简单随机抽样或系用抽样的办法抽取一个子样本,最后,将这些子样本合起来构成总体的样本。
1.2.2用样本的数字特征估计总体的数字特征
(1)总体分布:
能够精确反映总体布局取值的概率分布规律的方式,称为总体分。
总体分布反映了总体在各个范围内取值的概率.
(2)频率分布:
样本中所有数据(或者数据组)的频数和样本容量的比,就是该数据的频率。
所有数据(或者数据组)的频率的分布变化规律叫做频率分。
可以用样本频率表、样本频率分布直方图、频率分布折线图、茎叶图等来表示.
(3)频率分布折线图:
连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.
(4)总体密度曲线:
如果样本容量不断增大,分组的组距不断缩小,则频率折线图越来越接近于总体在各小值内所取值的个数与总数比值的大小,它可以用一光滑曲线来描绘.这条光滑曲线就叫做总体密度曲线.
(5)茎叶图:
统计中还有一种被用来表示数据的图叫茎叶图.茎是指中间的一列数,叶是从茎的旁边生长出来的数.茎叶图表示数据有两个突出的优点.其一是统计图上没有原始数据的损失,而且能够展示数据的分布情况.
(6)频率分布直方图的特征
(i)频率分布直方图中纵轴表示
,频率=
;
(ii)频率分布直方图中,组距是一个固定值,故各小长方形高的比就是频率之比.
(iii)所有小长方形的面和之为1
(7)众数:
在样本数据中,频率分布最大值所对应的样本数据.
中位数:
样本数据中,累积频率为0.5时所对应的样本数据值.(累积频率:
样本数据小于某一数值的频率叫做该数值的累积频率).
平均数:
样本数据的算术平均数.即
=
(x1+x2+…+xn)
标准差的计算公式S=
1.3.变量简的相关关系
(1)相关关系:
当自变量的取值一定时,因变量的取值带有随机性,那么这两个变量之间的关系叫做相关关系。
如果一个变量的值由小变大时,另一个变量的值也由小到大,这种相关称为正相关。
反之,如果一个变量的值由小变大,另一个变量的值由大到小,这种关系为负相关。
(2)散点图:
表示具有相关关系的两个变量的一组数据的图形
(3)回归分析:
对具有相关关系的两个变量进行统计分析的方法,叫做回归分析.(4)回归方程:
一般地,设x和y是具有相关关系的两个变量,且对应于n个观测值的n个点大致分布在一条直线的附近,若所求的直线方程为
=a+bx,则
这个方程叫回归直线方程,a、b叫回归系数,这条直线叫回归直线。
(5)最小二乘法:
使离差平方和Q=(y1-bx1-a)2+(y2-bx2-a)2+…+(yn-bxn-a)2为最小的方法,叫做最小二乘法。
1.4独立性实验
1.X2统计量X2=
用它的大小可以决定是否拒绝原来的统计假设H0.如果算出的X2值较大,就拒绝H0,也就是拒绝“事件A与B无关”,从而就认为它们是有关的了.
7.两个临界值:
3.841与6.635
经过对X2统计量的分布研究,已经得到了两个临界值:
3.841与6.635,当根据具体的数据算出的X2>3.841时,有95%的把握说事件A与B有关;当X2>6.635时,有99%的把握说事件A与B有关,当X2≤3.841,认为事件A与B是无关的.
壹、随机抽样
一、简单随机抽样
1.用随机数表进行抽样有以下几个步骤:
①将总体中的个体编号;②获取样本号码;③选定开始的数字,这些步骤的先后顺序应为( )
A.①②③ B.①③②C.③②①D.③①②[答案] B
2.(2008·重庆高考)某校高三年级有男生500人,女生400人,为了解该年级学生的健康情况,从男生中任意抽取25人,从女生中任意抽取20人进行调查.这种抽样方法是( )
A.简单随机抽样法 B.抽签法C.随机数表法D.分层抽样法
[解析] 本小题主要考查抽样方法.若总体由差异明显的几部分组成时,经常采用分层抽样的方法进行抽样.[答案] D
3.下面的抽样方法是简单随机抽样的是( )
A.在某年明信片销售活动中,规定每100万张为一个开奖组,通过随机抽取的方式,确定号码的后四位为2709的获三等奖
B.某车间包装一种产品,在自动包装的传输带上,每隔30分钟抽一包产品,称其重量是否合格
C.某学校分别从行政人员、教师、后勤人员中抽取2人、14人、4人了解学校机构改革的意见
D.用抽签方法从10件产品中选取3件进行质量检验[答案] D
二、系统抽样
例1:
某单位在岗职工共624人,为了调查工人用于上班途中的时间,决定抽取10%的工人进行调查,如何采用系统抽样方法完成这一抽样?
[解] 第一步 将624名职工用随机方式进行编号;
第二步 从总体中剔除4人(剔除方法可用随机数表法),将剩下的620名职工重新编号(分别为000,001,002,…,619),并分成62段;
第三步 在第一段000,001,002,…,009这十个编号中用简单随机抽样确定起始号码i0;
第四步 将编号为i0,i0+10,i0+20,…i0+610的个体抽出,组成样本.
[点评与警示]:
根据系统抽样的概念,若n部分中在第一部分抽取的号码为m,分段间隔为d,则由等差数列的知识可得在第k部分中抽取的第k个号码为m+(k-1)d.
练习:
1.(2010·湖北,6)将参加夏令营的600名学生编号为:
001,002,…,600.采用系统抽样方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300在第Ⅰ营区,从301到495在第Ⅱ营区,从496到600在第Ⅲ营区.三个营区被抽中的人数依次为( )
A.25,17,8B.25,16,9C.26,16,8D.24,17,9
[解析] 总体数为600,样本的容量是50,∴600÷50=12.因此,每隔12个号能抽到一名,由于随机抽得第一个号码为003,按照系统抽样的操作步骤在第1营区应抽到25人,第2营区应抽到17人,第3营区应抽到8人.故选A.[答案] A
2.将参加数学竞赛的1000名学生编号如下:
0001,0002,0003,…,1000,从中抽取一个容量为50的样本,考虑采取系统抽样,则分段的间隔K为________.
[解析] 在系统抽样中,确定分段间隔K对编号进行分段,K=
.(N为总体的容量,n为样本的容量)
∴K=
=
=20.[答案] 20
3.要从已编号(1~50)的50枚最新研制的某型号导弹中随机抽取5枚来进行发射的试验,用每部分选取的号码间隔一样的系统抽样方法确定所选取的5枚导弹的编号可能是( )
A.5,10,15,20,25B.1,2,3,4,5C.2,4,8,16,22D.3,13,23,33,43
[解析] 系统抽样方法抽取到的导弹编号应该是k,k+d,k+2d,k+3d,k+4d,其中d=
=10,k是1~10中用简单随机抽样方法得到的数.[答案] D
三、分层抽样
一年级
二年级
三年级
女生
373
x
y
男生
377
370
z
例1:
(2008·广东)某校共有学生2000名,各年级男、女生人数如下表.已知在全校学生中随机抽取1名,抽到二年级女生的概率是0.19.现用分层抽样的方法在全校抽取64名学生,则应在三年级抽取的学生人数为
A.24 B.18 C.16 D.12
[解析] 本题考查简单的统计知识的应用,注意到分层抽样的实质就是按比例抽样,故只要求出三年级人数即可;设二年级人数为x,则由
=0.19,得x=380,即二年级的女生有380人,那么三年级的学生的人数应该是2000-373-377-380-370=500,即总体中各个年级的人数比例为3∶3∶2,故在分层抽样中应在三年级抽取的学生人数为250
练习:
1.某校有高一、高二、高三三个年级的学生,其相应人数之比为3∶3∶2,现用分层抽样方法抽出一个容量为n的样本,样本中高三有16人,那么,此样本的容量n=________.
[解析] 设分别抽取高一、高二学生m1,m2人.则由分层抽样的特点可知
=
=
则m1=24,m2=24
2.(2009·天津高考题)某学院的A,B,C三个专业共有1200名学生,为了调查这些学生勤工俭学的情况,拟采用分层抽样的方法抽取一个容量为120的样本.已知该学院的A专业有380名学生,B专业有420名学生,则在该学院的C专业应抽取________名学生.
[解析] C专业的学生有1200-380-420=400,
由分层抽样原理,应抽取120×
=40名.[答案] 40
简单随机抽样、系统抽样、分层抽样的比较:
类别
共同点
各自特点
联系
适用范围
简单随机抽样
①抽样过程中每个个体被抽到的可能性相等
②每次抽出个体后不再将它放回,即不放回抽样
从总体中逐个抽取
总体个数较少
系统抽样
将总体均匀分成几部分,按预先制定的规则在各部分中抽取
在起始部分取样时采用简单随机抽样
总体个数较多
分层抽样
将总体分成几层,分层进行抽取
各层抽样时采用简单随机抽样或系统抽样
总体由差异明显的几部分组成
贰、用样本估计总体
一、频率分布直方图
例:
(2010·安徽,18)某市2010年4月1日—4月30日对空气污染指数的监测数据如下(主要污染物为可吸入颗粒物):
61,76,70,56,81,91,92,91,75,81,88,67,101,103,95,91,77,86,81,83,82,82,64,79,86,85,75,71,49,45.
(1)完成频率分布表;
(2)作出频率分布直方图;(3)根据国家标准,污染指数在0~50之间时,空气质量为优;在51~100之间时,为良;在101~150之间时,为轻微污染;在151~200之间时,为轻度污染.
请你依据所给数据和上述标准,对该市的空气质量给出一个简短评价.
分组
频数
频率
[41,51)
2
[51,61)
1
[61,71)
4
[71,81)
6
[81,91)
10
[91,101)
5
[101,111)
2
[解]
(1)频率分布表:
(2)频率分布直方图:
(3)答对下述两条中的一条即可:
(i)该市一个月中空气污染指数有2天处于优的水平,占当月天数的
.有26天处于良的水平,占当月天数的
.处于优或良的天数共有28天,占当月天数的
.说明该市空气质量基本良好.(ii)轻微污染有2天,占当月天数的
.污染指数在80以上的接近轻微污染的天数有15天,加上处于轻微污染的天数,共有17天,占当月天数的
,超过50%.说明该市空气质量有待进一步改善.
练习:
1.(2009·福建)一个容量100的样本,其数据的分组与各组的频数如下表
组别
(0,10]
(20,20]
(20,30)
(30,40)
(40,50]
(50,60]
(60,70]
频数
12
13
24
15
16
13
7
则样本数据落在(10,40)上的频率为( )
A.0.13 B.0.39 C.0.52 D.0.64
[解析] 由题意可知频数在(10,40]的有:
13+24+15=52,由频率=频数÷总数可得0.52.故选C.
分组
频数
频率
[1.30,1.34)
4
0.04
[1.34,1.38)
25
0.25
[1.38,1.42)
30
0.30
[1.42,1.46)
29
0.29
[1.46,1.50)
10
0.10
[1.50,1.54)
m
n
合计
M
N
2.在生产过程中,测得纤维产品的纤度(表示纤维粗细的一种量),所得数据整理后,列出了频率分布表如下:
(1)求出表中m,n,M,N所表示的数分别是多少?
(2)画出频率分布直方图;
(3)全体纤维产品中纤度在哪组范围的数据最多?
估计纤度大于1.42的概率.
[解]
(1)M=
=100,m=100-4-25-30-29-10=2
N=1,n=
=
=0.02.
(3)在[1.38,1.42)范围内最多.估计纤度大于1.42的概率为
=0.41或0.29+0.10+0.02=0.41.
二、茎叶图
(2009·安徽高考题)某良种培育基地正在培育一种小麦新品种A,将其与原有的一个优良品种B进行对照试验,两种小麦各种植了25亩,所得亩产数据(单位:
千克)如下品种A:
357,359,367,368,375,388,392,399,400,405,414,415,421,423,423,427,430,430,434,443,445,445,451,454品种B:
363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,415,416,422,430
(1)完成所附的茎叶图;
(2)用茎叶图处理现有的数据,有什么优点?
(3)通过观察茎叶图,对品种A与B的亩产量及其稳定性进行比较,写出统计结论.
[解]
(1)茎叶图如图所示:
(2)用茎叶图处理现有的数据,不仅可以看出数据的分布状况,而且可以看出每组中的具体数据.没有任何信息损失,而且还可以随时记录新的数据.
(3)通过观察茎叶图①可以看出品种A的平均亩产量为411.1千克,品种B的平均亩产量为397.8千克,由此可知品种A的平均亩产量比品种B的平均亩产量高,②品种A亩产标准差比品种B大,故品种A的亩产量不够稳定,而品种B的亩产量比较集中在平均产量附近.
叁、变量简的相关关系
一、相关关系的判断
1.(2009·海南高考题)对变量x,y有观测数据(x1,y1)(i=1,2,…,10),得散点图1;对变量u,v有观测数据(u1,v1)(i=1,2,…,10),得散点图2.由这两个散点图可以判断( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
[解析] 由这两个散点图可以判断,变量x与y负相关,u与v正相关,选C.
(1)如图是两个变量统计数据的散点图,判断两个变量之间是否具有相关关系?
(2)有个男孩的年龄与身高的统计数据如下.
年龄(岁)
1
2
3
4
5
6
身高(cm)
78
87
98
108
115
120
画出散点图,并判断它们是否有相关关系.
[解]
(1)不具有相关关系,因为散点图散乱地分布在坐标平面内,不呈线形.
(2)散点图是分析变量相关关系的重要工具.作出散点图如图:
由图可见,具有线性相关关系.
二、求线性回归方程及对总体进行估计
x
3
4
5
6
y
2.5
3
4
4.5
例:
(2007·广东卷)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程
y=
x+
;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据
(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?
(参考数值:
3×2.5+4×3+5×4+6×4.5=66.5)
[解]
(1)由题设所给数据,可得散点图如下.
(2)由对照数据,计算得:
xi2=86,
=
=4.5,
=
=3.5,
所以,由最小二乘法确定的回归方程的系数为:
=
=
=0.7,
=
-
=3.5-0.7×4.5=0.35,因此,所求的线性回归方程为y=0.7x+0.35.
(3)由
(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为:
90-(0.7×100+0.35)=19.65(吨标准煤).
x
3
4
5
6
y
2.5
3
4
4.5
练习:
1.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据
其线性回归方程为=0.7x+0.35
(1)指出技术改造后,每生产甲产品1000吨时,相应的生产能耗平均变动多少?
(2)若实际生产中,允许生产能耗最多为70.35吨标准煤,那么,生产甲产品的产量应控制在什么范围内?
[解]
(1)因为生产能耗平均变动
=0.7>0,且产量x的计量单位为吨,所以根据回归系数b的意义有:
产量每增加1000个单位即1000吨时,生产能耗平均增加700吨.
(2)要使
≤70.35即0.7x+0.35≤70.35所以x≤100
所以生产甲产品的产量应控制在100吨以下.
三、独立性实验
例:
为了解某班学生喜欢打篮球是否与性别有关,对本班50人进行了问卷调查得到了下表:
喜爱打篮球
不喜爱打篮球
合计
男生
20
5
25
女生
10
15
25
合计
30
20
50
下面的临界值表供参考:
P(K2≥k)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
2.072
2.706
3.841
5.024
6.635
7.879
10.828
则根据以下参考公式可得随机变量K2的值为________(保留三位小数),有________%的把握认为喜爱打篮球与性别有关.
(参考公式:
K2=
,其中n=a+b+c+d)
[解析] K2=
≈8.333>7.879,对照临界表可知,有99.5%的把握认为喜爱打篮球与性别有关.[答案] 8.333;99.5
练习:
1.(2009·佛山一模)有甲乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩后,得到如下的列联表.
优秀
非优秀
总计
甲班
10
乙班
30
合计
105
已知在全部105人中抽到随机抽取1人为优秀的概率为
(1)请完成上面的列联表;
(2)根据列联表的数据,若按照95%的可靠性要求,能否认为“成绩与班级有关系”.
[解]
(1)
优秀
非优秀
总计
甲班
10
45
55
乙班
20
30
50
合计
30
75
105
(2)根据列联表中的数据,得到k=
≈6.109>3.841
因此有95%的把握认为“成绩与班级有关系”.
2.有甲乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩后,得到如下的列联表.
优秀
非优秀
总计
甲班
10
45
55
乙班
20
30
50
合计
30
75
105
(1)成绩与班级是否有关?
(2)用假设检验的思想给予证明;
(3)若按下面的方法从甲班优秀的学生抽取一人:
把甲班优秀的10名学生从2到11进行编号,先后两次抛掷一枚均匀的骰子,出现的点数之和为被抽取人的序号.试求抽到6或10号的概率.
[解]
(1)根据列联表中的数据,得到k=
≈6.109>3.841
因此有95%的把握认为“成绩与班级有关系”.
(2)证明:
假设“成绩与班级之间没有关系”,由于事件A={K≥3.841}≈0.05,即A为小概率事件,而小概率事件发生了,进而得假设错误,这种推断出错的可能性约有5%.
(3)设“抽到6或10号”为事件A,先后两次抛掷一枚均匀的骰子,出现的点数为(x,y).所有的基本事件有(1,1)、(1,2)、(1,3)、……、(6,6),共36个.事件A包含的基本事件有:
(1,5)、(2,4)、(3,3)、(4,2)、(5,1)、(4,6)、(5,5)、(6,4),共8个∴P(A)=
=
.
[点评与警示] 1.在利用统计变量K2进行独立检验时,应该注意准确代数和正确计算,再把计算的结果与有关临界值相比较,正确下结论.
2.独立性检验的基本思想类似于反证法.要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下构造的随机变量K2应该很小.如果由观测数据计算得到的K2的观测值k很大,则在一定程度上说明假设不合理.根据随机变量K2的含义,可以通过概率P(K2≥6.635)≈0.01评价该假设不合理的程度,由实际计算出的k>6.635,说明假设不合理的程度约为99%,即“两个分类变量有关系”这一结论成立的可信程度约为99%.