抽样技术报告.docx
《抽样技术报告.docx》由会员分享,可在线阅读,更多相关《抽样技术报告.docx(18页珍藏版)》请在冰豆网上搜索。
抽样技术报告
中国地质大学(武汉)经济管理学院
课题:
简单估计量和联合回归估计量精度的比较专业:
统计学
班级序号:
088111
学生姓名:
黄佳容莲子刘青
指导老师:
余国合老师
简单估计量和联合回归估计量精度的比较
摘要
分层抽样技术在实际中应用非常广泛,有时分层抽样会与其他抽样方法如简单随机抽样等方法结合反复使用。
当总体单位之间差异较大时,运用简单随机抽样进行估计往往会产生较大的误差。
但如果对总体单位进行分类,从每个子总体中抽取少量样本单位,就能很好的代表子总体的特征,从而提高对整个总体估计的精度。
本文使用抽样分层技术,简单估计量和联合回归估计,通过2001年世
界碳强度的相关数据对2002年世界碳强度做出估计。
结果表明分层抽样中的联合回归估计对世界碳强度的估计精度较高。
关键词:
分层抽样简单估计量联合回归估计
Theprecisioncomparisonbetweenthesimpleestimatorandtheunitedregressionestimator
Abstract
Stratifiedsamplingmethodiswidelyappliedintheactual.Sometimes‘comparedwithothersamplingmethodssuchassimplerandomsamplingmethodcanalsobeused.Whentherearebigdiffereneebetweeneachunitsofthepopulation.Useingthesimplerandomsamplingtoestimatetendstohavelargeerror.Butifwewanttoclassifythepopulation,weneedtoextractasmallamountofsamplesfromeachsub-populationunit.Thuscanmasterthecharacteristicsofthepopulation.Sowecanimprovetheaccuracyoftheoverallestimator.Thisarticleusethestratificationsamplingtechnology,simpleestimatorandtheunitedregressionestimator.Weestimatethe2002world'scarboninbyrtsiiey2001world'carbonintensity.Theresultshowsthattheunitedregressionestimatorofastratifiedsamplingcangetgoodprecision.
KeyWords:
Stratifiedsampling;simpleestimator;theunitedregressionestimator
碳强度是指单位GDP勺二氧化碳排放量。
碳强度高低不表明效率高低。
一般情况下,碳强度指标是随着技术进步和经济增长而下降的。
计算公式=二氧化碳
排放总量/GDP碳排放强度取决于:
1,化石能源的碳排放系数;2,化石能源的结构;3,化石能源在能源消费总量中的比例;4,能源强度。
碳排放需求主要与经济发展规模和发展水平直接相关,规模越大,水平越高,则需求越大,反之则低。
但达到一定水平,碳排放需求则趋于平稳和不断下降。
排放需求线即过去某一时点的排放总量。
此为京都议定书目标模式,以1990年或附近某一年的排放总量作为排放需求的基准线。
基于历史和当前排放而线性外推到某一时点或时段的排放总量。
1997年,《京都议定书》规定,到2010年,所有发达国家的二氧化碳等6种温室气体的排放量,要比1990年减少5.2%。
第一承诺期是2008年到2012年。
《京都议定书》下谈判主要解决减排目标,即确定京都议定书第2期,发达国家如何
减排,发展中国家如何参与。
至于中国代表团的具体分工。
中国、印度、南非等发展中国家坚持发达国家应到2020年在其1990年的基础上减排40%而欧盟提出的中期减排方案是20%日本在鸠山由纪夫上台后的最新立场为25%美国在奥巴马上台后的最新立场约为4%
在研究2001年世界碳强度的情况下,本文将使用分层抽样方法对2002
年世界碳强度进行预测并且评估抽样方法。
本文以下安排的结构为:
第一部分对抽样方法进行介绍;第二部分对世界碳强度的抽样进行实证研究;第三部分对两种方法进行比较得出结论。
一.抽样方法介绍
(一)样本容量的确定
表一2002年世界各国碳强度数值
0.06
0.42
「0.66
1.16
2.75
0.10
0.42
「0.66
1.19
3.06
0.13
0.43
0.67
1.21
3.09
0.14
0.43
0.67
1.24
3.29
0.15
0.44
[0.67
1.26
3.52
0.15
0.44
0.68
1.26
3.73
0.17
0.45
0.68
1.28
3.79
0.18
0.46
「0.69
1.28
3.92
0.19
0.46
0.69
1.37
3.99
0.21
0.46
0.71
1.42
4.08
0.22
0.46
0.72
1.44
4.31
0.24
0.48
「0.74
1.48
4.38
0.24
0.49
0.74
1.50
4.88
0.24
0.49
0.75
1.56
6.39
0.25
0.50
「0.77
1.56
6.42
0.25
0.51
0.79
1.60
6.61
0.26
0.51
0.81
1.61
6.92
0.26
0.52
「0.81
1.61
8.48
0.27
0.53
[0.81
1.69
8.67
0.28
0.53
0.83
1.72
10.14
0.30
0.53
[0.84
1.78
11.99
0.31
0.54
「0.85
1.88
0.32
0.54
0.88
1.91
0.34
0.55
[0.89
1.92
0.34
0.56
「0.90
1.94
0.35
0.56
0.91
1.94
0.35
0.57
10.91
1.95
0.36
0.58
[0.94
2.07
0.36
0.59
0.96
2.25
0.36
0.59
0.97
2.25
0.36
0.59
[0.97
2.26
0.38
0.61
0.98
2.35
0.38
0.61
0.98
2.38
0.39
0.61
[0.99
2.44
0.39
0.62
1.02
2.52
0.39
0.62
1.03
2.52
0.40
0.63
p.03
2.54
0.41
0.63
1.07
2.54
0.41
0.64
1.08
2.62
0.42
0.66
「1.10
2.74
图一总体分布折线图
由图一的折线图可以看出,可将总体大致可以分为三层,第一层从1—85,
第二层从86—149,第三层从150—181。
2
总体的方差为:
S=3.253778571总体的均值E(Y)=1.4。
经多次试验,我们取变异系数为CV(E(y))=0.2,然后利用公式:
no二S2/[CV2(E(y))E2(Y)]=3.253778571/(0.2沪(1.4)2=41.50227769
接着我们再利用公式:
n。
=n0/(1-n0/N)=33.76105782
我们取no=34,这样就确定了样本量。
(2)各层样本量的分配
分层抽样中,解决层样本容量的配置问题,既是实施分层抽样调查的前提,也是保证抽样精度和效率的关键因素。
样本容量的分配可以看作是连续给一层减少同时给另一层增加一个样本单元使得层估计的样本和总体相应样本的方差减少的一种方法。
在对层进行划分时,通常考虑使层内单位的标志值相近,层间单
位差异尽可能大,达到提高抽样估计精度的目的。
分层抽样中样本量的分配有比例分配、最优分配和尼曼分配三种。
比例分配即按层的层权进行分配,即
nN
Wh,该种方法可以体现公平原则;最优分配是指在总费用给定的条
nN
件下,使得估计量方差达到最小,或是在给定估计量方差的条件下,使总费用最小;尼曼分配时最优分配的特例,是每层抽样费用都相同的情况下,得到的层样
本量,公式为nh二n。
尼曼分配适合层间变化较大的样本。
工WhSh
h=1
本题按比例分配对总的样本量进行分配,n1=(34/181)*85=15.96685083,我们取n1=16;n2=(34/181)*63=11.83425414我们取n2=12,n3=(34/181)*31=5.82320442,我们取n3=6。
这样每一层的样本量也确定了。
(3)样本的抽取
确定每层样本量之后,就使用产生随机数的方法进行抽取样本的过程。
本
文使用的方法是在SPSS中产生随机数来抽取各层的样本。
由上面确定总的样
本数为34个。
第一层样数是从1-85个数之间随机第三层样本数是在150-181个数之间随机抽取6个。
我们用SPSS完成样本的选取,具体步骤如下:
□rr:
(2)再点“随机个案样本”,出来窗口如下:
由于第一层是在1-85个数之间抽取16个数,所以上面选择“精确”按钮,
第二层和第三层的样本的选取同第一层样本的选取一样的步骤。
这样我们就完成
了样本的抽取。
二.抽样方法的实证
(一)简单估计量
步骤:
(1)计算出所抽样本的每层的层权Wh,如下:
Wi=16/34=0.470588235
W2=12/34=0.352941176
W3=6/34=0.176470588
(2)计算每层样本的均值E(yh),结果如下:
0.59
0.61
0.69
第二层均值:
1.3025
0.71
0.81
0.88
1.03
1.07
1.26
1.44
1.61
1.94
1.94
2.25
2.52
第三层均值:
3.911666667
2.62
2.75
4.31
4.88
6.39
由上表可知:
E(yi)=0.341875
E(y2)=1.3025
E(y3)=3.911666667
(3)禾U用简单估计量的公式计算出总体均值的估计,如下:
E(Y)八WhE(yh)=WiE(yi)W2E(y2)W3E(y3)=1.310882353
(4)计算估计量的精度,如下:
样本
离差
离差平方和
1
-0.281875
0.079453516:
2
-0.191875
0.036816016
3
-0.151875
0.023066016
4
-0.131875
0.0173910161
5
-0.121875
0.014853516:
6
-0.101875
0.010378516
7
-0.061875
0.003828516:
8
-0.041875
0.001753516:
9
0.018125
0.000328516
10
0.018125
0.000328516
11
0.038125
0.001453516「
12
0.088125
0.007766016
13
0.188125
0.035391016
14
0.218125
0.047578516:
15
0.248125
0.061566016
16
0.268125
0.071891016
17
-0.6125
0.37515625:
18
-0.5925
0.35105625
19
-0.4925
0.24255625
20
-0.4225
0.17850625:
21
-0.2725
0.07425625
22
-0.2325
0.05405625
23
-0.0425
0.00180625
24
0.1375
0.01890625
25
0.3075
0.09455625
26
0.6375
0.40640625
27
0.6375
0.40640625
28
0.9475
0.89775625
29
-1.3916667
1.936736204
30
-1.2916667
1.668402864「
31
-1.1616667
1.349469522
32
0.3983333
0.158669418
33
0.9683333
0.93766938「
34
2.4783333
6.142135946
将上面表格中的数值汇总得:
第一层离差平和
0.41384375
第一层方差
0.025865234
第二层离差平和
3.101425
第二层方差
0.258452083
第三层离差平和
12.19308333
第三层方差
2.032180556
综上可以得到:
V(Yst)=\Wh2V(E(Yh))=Wi2V(E(Yi))W22V(E(Y2))W32V(E(Y3))
=0.101208565
所以用简单估计得到的精度为:
se二v(yst)=0.318132936
(二)联合回归估计
(1)调查变量y与辅助变量x的样本分层表:
样本x
样本y
第一层
第二层
第三层
第一层
第二层
第三层
0.06
0.71
2.72
0.06
0.69
2.52
0.16
0.79
1.84
0.15
0.71
2.62
0.19
0.89
2.84
0.19
0.81
2.75
0.21
0.86
4.31
0.21
P0.88
4.31
0.23
1.06
4.88
0.22
1.03
4.88
0.22
1.07
6.39
0.24
1.07
6.39
0.27
1.25
0.28
1.26
0.29
1.44
0.3
1.44
0.37
1.64
0.36
1.61
0.32
1.83
0.36
1.94
0.41
1.92
0.38
1.94
0.42
2.19
0.43
「2.25
0.52
0.53
0.62
0.56
0.61
0.59
0.59
0.61
根据上表并由fhn^和wh=匹可以得到:
Nhn
样本(xh,yh)
样本量(九)
抽样比(人)
层权(Wh)
均值(EXh)
均值(Eyh)
第一层
16
0.188235294
0.470588235
0.343125
0.341875
第二层
12
0.1875
0.352941176
1.304166667
1.3025
第三层
6
0.1875
0.176470588
3.83
3.9116667
(2)求辅助变量样本x的第一、二、三层的离差和离差平方得:
第一层
第二层
X的离差
X的离差平方
X的离差
X的离差平方
-0.283125
0.080159766
-0.594166667
0.353034028
-0.183125
0.033534766
-0.514166667
0.264367361
-0.153125
0.023447266
-0.414166667
0.171534028
-0.133125
0.017722266
-0.444166667
0.197284028
-0.113125
0.012797266
-0.244166667
0.059617361
-0.123125
0.015159766
-0.234166667
0.054834028
-0.073125
0.005347266
-0.054166667
0.002934028
-0.053125
0.002822266
0.135833333
0.018450694
0.026875
0.000722266
0.335833333
0.112784028
-0.023125
0.000534766
0.525833333
0.276500694
0.066875
0.004472266
0.615833333
0.379250694
0.076875
0.005909766
0.885833333
0.784700694
0.176875
0.031284766
0.276875
0.076659766
0.266875
0.071222266
0.246875
0.060947266
第三层
x的离差
x的离差平方
-1.11
1.2321
-1.99
3.9601
-0.99
0.9801
0.48
0.2304
1.05
1.1025
2.56
6.5536
并由上表可以得到:
样本x
离差平方和
方差(s2h)
第一层
0.44274375
0.027671484
第二层
2.675291667
0.222940972
第三层
14.0588
2.343133333
(3)求调查变量样本y的第一、二、三层的离差和离差平方可得:
第一层
第二层
y的离差
y的离差平方
y的离差
y的离差平方
-0.281875
0.079453516
-0.6125
0.37515625
-0.191875
0.036816016
-0.5925
0.35105625
-0.151875
0.023066016
-0.4925
0.24255625
-0.131875
0.017391016
-0.4225
0.17850625
-0.121875
0.014853516
-0.2725
0.07425625
-0.101875
0.010378516
-0.2325
0.05405625
-0.061875
0.003828516
-0.0425
0.00180625
-0.041875
0.001753516
0.1375
0.01890625
0.018125
0.000328516
0.3075
0.09455625
0.018125
0.000328516
0.6375
0.40640625
0.038125
0.001453516
0.6375
0.40640625
0.088125
0.007766016
0.9475
0.89775625
0.188125
0.035391016
0.218125
0.047578516
0.248125
0.061566016
0.268125
0.071891016
第三层
y的离差
y的离差平方
-1.3916667
1.936736204
-1.2916667
1.668402864
-1.1616667
1.349469522
0.3983333
0.158669418
0.9683333
0.93766938
2.4783333
6.142135946
并由上表可以得到:
样本y
离差平方和
方差(Syh)
第一层
0.41384375
0.025865234
第二层
3.101425
[0.258452083
第三层
12.19308333
2.032180556
(4)求调查变量样本y和辅助变量样本x第一、二、三层的对应离差积可以得到:
x与y的对应离差积
第一层
第二层
第三层
0.079805859
0.363927084
1.544750037
0.035137109
0.30464375
2.570416733
0.023255859
0.203977083
P1.150050033
0.017555859
0.187660417
0.191199984
0.013787109
0.066535417
1.016749965
0.012543359
0.05444375
6.344533248
0.004524609
0.002302083
0.002224609
0.018677083
0.000487109
0.10326875
-0.000419141
0.33521875
0.002549609
0.39259375
0.006774609
0.839327083
0.033274609
0.060393359
0.066218359
0.066193359
并由上表可以得到:
样本x与y
离差积之和
协方差(Syxh)
第一层
0.42430625
0.026519141
第二层
2.872575
「0.23938125
第三层
12.8177
2.136283333
综上可以得到:
.W2(1-f2)Syx2.M(1-f3)SyX3
hinh
JWh2(1—fh)s:
mn2n3
21222223厂=0.938157279;
W2(1-fl)S2.W22(1-f2)£.W32(1-f3)S3
通过对两种方法的比较,其简单估计量分配抽样的精度为0.318132936,联合回归估计量的精度为0.020369425。
直观可以看出该题用联合回归估计方法更好。
就该题而言首先我们对数据进行排序,使得相近的数据为一组得以满足层内单位具有相同性质,层间单位的差异尽可能的大,从而达到提高抽样估计精度的目的。
通过观察序号与碳强度的折线图看