01统计数据整理.docx
《01统计数据整理.docx》由会员分享,可在线阅读,更多相关《01统计数据整理.docx(17页珍藏版)》请在冰豆网上搜索。
01统计数据整理
统计与计量经济分析
中国人民银行培训班教材
南开大学经济学院教授
数量经济学专业博士生导师
张晓峒
应用统计分析
天下皆知美之为美,斯恶已。
皆知善之为善,斯不善已。
有无相生,难易相成,长短相形,高下相盈,音声相和,前后相随。
恒也。
《老子》第二章
统计学(Statistics):
是一门关于数据资料的收集,整理,分析,推断的科学。
为深刻认识既对立又统一的事物提供科学分析方法。
统计学的研究方法是依据外部观察到的事实、数据进行分析从而研究事物内部的规律性。
可以这样说,只要关系到数据处理,必然要用到统计学知识。
随着电子计算机的发展,使统计学的应用更加广阔。
例如某银行要研究定期存单的存款额分布,在以前是根本做不到的,现在用计算机处理非常方便。
第1章统计资料(Data)的收集、整理与分析
1.1统计资料定义。
统计资料:
作某种研究所需事实和数字,它是进行统计分析的原材料。
例.关于活期存折的统计资料。
储户姓名
活期存折账号
存折起始期
有无密码
储户地址
账面余额
张武陵
134********3422
1967.04.23
有
南开区鞍山西道18号
1853.45
王海
134********0000
1988.12.23
无
南开区风荷里16号
16545.34
周秉礼
134********0212
2000.06.30
有
南开区风荷里22号
24456.87
武秀玲
134********0200
2004.02.11
有
南开区学府路34号
6065.78
严崧羽
134********0020
1978.10.04
无
南开区白堤路216号
4532.48
…
…
…
…
…
…
统计资料一般由元素、变量、观测三部分组成。
元素(Element):
研究对象。
如张武陵,王海等。
变量(Variable):
一种属性或特征,如储户姓名、账面余额等。
观测(Observation):
某变量的具体取值。
如账面余额中的1853.45。
变量分定性,定量两种。
如“有无密码”是定性变量,而“账面余额”是定量变量。
但定性与定量变量的区别不是绝对的,可以互相转化。
如把“账面余额”变量划分为“高额储户”、“中额储户”和“低额储户”,于是转化成为定性变量。
若把存折有密码取1,存折无密码取0,则定性变量“有无密码”变成了定量变量。
1.2统计资料的收集。
统计资料的收集方式有两种。
(1)直接引用;
(2)作调查。
直接引用指可以从统计年鉴、各级政府和单位的网站摘取数据。
当引用现成资料时,必须注意资料来源的性质和限制条件是否与自己所研究的目的相一致,否则会带来误差。
如
(1)2000年起中国“零售商品物价指数”开始变为“消费者物价指数”。
由于计算对象发生一些变化,指数序列会引入误差。
(2)引用“农业人口”资料,要注意资料中数字是指从事农业劳动人口,还是农村户口人口。
从而保证与所要研究的问题相一致。
(3)我国股票市场上每日的收盘价综合指数计算方法从2001年10月起由记录最后一笔交易改为最后一分钟内交易的加权平均。
这会给综合指数序列带来一些影响。
统计调查按方式可分为“实验式调查”和“观察式调查”两类。
1.实验式。
多用于自然科学研究,控制其他因素不变,通过可控因素的变化,观察研究对象的值。
如通过改变温度研究某种热敏电阻阻值的变化规律。
通过压力变化,观察机械构件的断裂强度。
如通过控制温度变化,观察工业锅炉的蒸汽产出量。
2.观察式。
多用于社会科学研究。
因为影响观测对象的其他因素都是不可控的,只能通过观察获得数据。
如纪录收入与支出,则家庭人口数、物价指数等都是不可控因素。
如纪录气温观测值、客流量、水位值等都属于观察式。
统计调查按范围分为“全面调查”和“抽样调查”两类。
1.全面调查(普查)。
对研究对象逐一调查。
如全国人口普查。
2.抽样调查。
调查研究对象的一部分。
如家庭收入抽样调查,大学生生活支出抽样调查。
用数字纪录的统计资料就是数据。
数据按性质可分为定性数据和定量数据两种。
按时点又可分为截面数据和时间序列数据。
1.3统计资料的误差。
1.抽样误差。
属于固有误差,不可能与真值相符。
2.调查过程误差。
(1)归并误差(粮食);
(2)测量误差(水表);(3)调查项目概念不清,调查人不能正确理解(籍贯)。
3.其他误差。
(1)笔误,
(2)汇总中误差,(3)被调查人不完整记忆,(4)对数字有意夸大或缩小等情况。
应该努力减小此类误差,提高统计资料可信度。
1.4统计资料的整理与分析。
总体(Population):
研究对象的全体称为总体。
常用X,Y等表示。
个体(element):
组成总体的每个基本单位称为个体。
样本(Sample):
总体中抽出若干个体而成的集体称为样本。
常用(x1,x2,…,xn)表示。
样本容量(Samplesize):
样本中所含个体的个数。
总体与样本的区别:
总体与样本的区别在于所研究问题的范围。
如对中国工商银行在某市的130个储蓄所的定期存款单进行调查,若研究的就是这130储蓄所的情况,则130个储蓄所的存单构成一个总体。
若用这130个储蓄所的数据推断全省所有中国工商银行储蓄所的情况,则这130个数椐是样本。
注意:
总体是指研究对象。
如上例中总体是指定期存款单存款值,而不是指130个储蓄所。
(1)统计表。
原始资料经过整理、归并成表格称为统计表。
统计表是整理统计资料的一种方式。
可以用来展示统计资料的特征。
统计表分
(1)定性分布表;
(2)频数(率)分布表两种。
定性分布表:
按原变量性质分类(非数值特征)所得的分布表。
注意:
定性分布表的分类要互相排斥而且完备,从而保证观测值既不重复也不遗漏地被划分到各类中去。
例1:
1986年民用航空航线数(条)定性分布表。
类别
条数
国际
27
国内
253
地区
8
合计
288
假如漏掉“地区”一项,统计则不完备。
频数分布表:
按原变量观测值分类所得的分布表。
频数分布表分为非分组频数分布表和分组频数分布表。
如做大学生年龄非分组频数分布表是容易的,但若是做某城市居民的年龄非分组频数分布表就困难了(有100多组)。
所以常用的是分组频率分布表。
观测值用组中值代替。
例2:
1982年全国年龄分组人口频数分布表
1982年全国年龄分组人口频数分布表
年龄组
人口数(亿人)
0—5以下
0.94704361
5—10以下
1.10735871
10—15以下
1.31810957
…
…
100以上
0.00003851
合计
10.08152137
频数分布表的制作过程:
1.把杂乱无章的初始数据(取自调查表)按大小排列,求出全距R=Xmax–Xmin。
2.求组距,R/n=全距/分组数=组距,把数据分组。
计算相应组内的观察值个数即频数。
3.做频数(率)分布表。
例3:
从北京统一饮品有限公司鲜橙多生产线上随机抽取20瓶橙汁饮料,测得净重值如下:
(克)
498.7,502.3,499.9,498.4,503.9,498.9,498.9,500.6,497.1,496.9,
501.6,497.7,494.8,499.1,498.9,501.0,497.8,497.,499.9,500.1
画直方图。
1.首先排序整理如下:
494.8,496.9,497.0,497.1,497.7,497.8,498.4,498.7,498.9,498.9,
498.9,499.1,499.9,499.9,500.1,500.6,501.0,501.6,502.3,503.9
2.求最大值、最小值、全距。
Xmin=494.8,Xmax=503.9。
3.试分为五组。
因为Xmin=494.8,Xmax=503.9,所以取上、下组限为504,494。
组距=(504–494)/5=2。
4.计算相应组内观测值频数,制成频数、频率分布表。
频数、频率分布表
组号
组限
频数
频数
频率
1
494—496以下
494.8
1
1/20
2
496—498以下
496.9,497.0,497.1,497.7,497.8
5
5/20
3
498—500以下
498.4,498.7,498.9,498.9,498.9,499.1,499.9,499.9
8
8/20
4
500—502以下
500.1,500.6,501.0,501.6
4
4/20
5
502—504以下
502.3,503.9
2
2/20
注意:
分组数没有硬性规定,以突出分布特征为目的,按数据的多少一般取5—20组。
(2)统计图。
统计图是展示数据特征的另一种形式。
常用的有:
条线图(Barchart),用条线表示定性分布表。
直方图(Histogram),折线图或多边形图(Polygon),用于描述频数、频率分布表。
此外还有堆积直方图、饼图、条形对比图等。
条线图(或条形图)。
例4:
以例1数据为例画条线图如下,横轴为定性分类,纵轴为频数(file:
bank01)。
条形图画法:
打开数据(file:
bank01)窗口,从View选BarGraph。
得条形图。
双击画面还可以对条线图进行方式上的改变。
直方图。
例5:
以20瓶橙汁饮料净重值(例3数据)为例画直方图如下。
横轴为数据轴,纵轴为频数轴。
直方图画法:
打开数据(file:
bank03)窗口,点击View键,对于原始数据,选DescriptiveStatistics,HistogramandStats功能;对于已整理数据,选BarGraph,LineGraph功能。
注意:
分组数没有硬性规定,以突出分布特征为目的,按数据的多少一般取5—20组。
分组数适合分组数过少分组数过多
画直方图时,若组距不等,要相应调整频数。
例6:
以1000瓶橙汁饮料净重值为例画直方图如下(file:
bank02)。
直方图画法:
打开数据窗口,点击View键,选DescriptiveStatistics,HistogramandStats功能。
注意:
怎样复制图片。
折线图。
用1982年7月1日0时数据(file:
stat07),整理出中国人口分组频数分布见下表。
1982.7.1.0.中国人口频数分布表(摘自《中国统计年鉴》1987)
年龄
组中值
人数(万)
年龄
组中值
人数(万)
0-4
2
9470.40
55-59
57
3393.20
5-9
7
11073.00
60-64
62
2738.70
10-14
12
13181.10
65-69
67
2126.00
15-19
17
12599.80
70-74
72
1434.80
20-24
22
7684.80
75-79
77
861.70
25-29
27
9314.30
80-84
82
370.40
30-34
32
7318.70
85-89
87
108.80
35-39
37
5432.80
90-94
92
21.80
40-44
42
4849.10
95-99
97
3.50
45-49
47
4745.50
100-
102
0.40
50-54
52
4085.60
合计
100815.21
折线图画法:
在画散点图的基础上,双击图内任意点,弹出GraphOptions对话框。
在ScatterDiagram选项区选择Connectpoints(点击前面的小方块,显示对勾),点击OK键。
可得到如下所示的折线图。
注意:
折线不与横轴相交。
变量名的位置可以移动。
堆积直方图。
1990年12月华北地区5高校(天津大学、清华大学、南开大学、天津纺织学院、北方交通大学)管理类师资队伍分职称年龄分布表与堆积直方图如下。
(file:
stat03)
序号
年龄
组中值
教授
副教授
讲师
助教
无职称
合计
比率
1
2025以下
22.5
0
0
1
3
1
5
0.021
2
2530以下
27.5
0
0
22
45
2
69
0.247
3
3035以下
32.5
0
0
15
4
1
20
0.084
4
3540以下
37.5
0
0
23
3
0
26
0.109
5
4045以下
42.5
0
2
13
0
0
15
0.063
6
4550以下
47.5
0
14
14
0
0
28
0.117
7
5055以下
52.5
2
34
1
0
0
37
0.155
8
5560以下
57.5
6
17
1
0
0
24
0.100
9
6060以上
62.5
9
6
3
0
0
18
0.075
堆积直方图画法:
(file:
stat07)点击Quick键,选Graph功能。
在弹出的对话框中依次输入变量名,PROF,ASSIPROF,LECTURE,ASSILEC,NONTITLE。
点击OK键。
在随后弹出的Graph对话框的GraphType选项区选StackedBar。
点击OK键。
可得到带间隙的堆积直方图。
双击图内任意点,弹出的GraphOptions对话框。
在BarGraph选项区去掉SpaceBars前面的对勾,则得到如上所示的堆积直方图。
通过堆积直方图得到如下分析结果。
(1)教师年龄分布在32-45岁间出现低谷。
第一个低谷(40-45岁)是由于10年文化革命,教育事业停顿,师资队伍得不到补充所致。
第二个低谷(32-36岁)是由于这个年龄段的教师出国不归、流向国外、国内的外资企业、经济特区等所致。
(2)退休人数与年俱增,8年后现在岗教师的1/3将退出岗位,高职称教师面临缺乏。
(3)25-35岁教师补入人数过大。
加剧了年龄分布的不合理。
并导致不同年龄段的教师职称晋升机会不等。
(4)各职称层次上平均年龄偏高。
饼图。
用1985年中国城镇居民家庭8项支出(食品、衣着、家庭设备用品及服务、医疗保健、交通通讯、娱乐教育文化服务、居住、各项商品与服务支出)占总支出的百分比资料(file:
bank04)画饼图如下。
饼图画法:
打开数据组(file:
bank04)窗口,点击View键,选Graph,Pie功能。
条形对比图。
1985和1998年中国城镇居民家庭8项支出占总支出的百分比资料见下图其中R85和R98分别表示1985和1998年的资料。
18项依次为食品、衣着、家庭设备用品及服务、医疗保健、交通通讯、娱乐教育文化服务、居住、各项商品与服务支出占总支出(8项和)的比。
得条形对比图如下:
由下图可以看出经历13年的经济发展之后,中国城镇居民家庭的消费结构发生了很大的变化。
1998年食品和衣着两项支出比率明显小于1985年,而交通通讯、娱乐教育文化服务两项支出比率明显大于1985年,这说明城镇居民家庭生活水平得到进一步提高。
医疗保健和居住四项支出比率明显大于1985年,这说明随着改革的进一步深入,医疗保健和居住支出逐步市场化。
条形对比图画法:
打开数据组(file:
bar01)窗口,点击View键,选Graph,Bar。
附录1:
怎样建立工作文件:
建立新工作文件的方法是打开EViews。
从EViews主菜单中单击File键,选择New,Workfile。
则打开一个WorkfileRange选择框(数据范围)。
三项选择是①Workfilefrequency(数据频率);②Startdate(启始期);③Enddate(终止期)。
本例在第①项选择中选Undatedorirregular(非时序数据)(点击相应小方块)。
第②项选择中的“1”自动生成,第③项选择的位置键入“1427”。
点击“OK”键。
这时会建立起一个尚未命名的工作文件(Workfile)。
输入数据的方法是从EViews主菜单中点击Quick键,选择EmptyGroup功能。
从而打开一个空白表格数据窗口(Group)。
每一个空格代表一个观测值位置。
按列依次输入每一个变量(或序列)的观测值。
键入每一个观测值后,可通过按回车键(Enter键)或方向指示键()进行确认。
按方向指示键()的好处是在确认了当前输入的观测值的同时,还把光标移到了下一个待输入位置。
从与1相对应的空格开始按列依次输入观测值。
每一列数据上方的灰色空格是用于输入变量名的。
给变量命名时,字符不得超过16个。
给变量定名为JPY(在此之前用SER1(EViews2.0)或SER01(EViews3.0,4.0)表示)。
注意:
下列名字具有特殊意义,给变量命名时,应避免使用。
它们是:
ABS,ACOS,AR,ASIN,C,CON,CNORM,COEF,COS,D,DLOG,DNORM,ELSE,ENDIF,EXP,LOG,LOGIT,LPT1,LPT2,MA,NA,NRND,PDL,RESID,RND,SAR,SIN,SMA,SQR,THEN。
附录3:
怎样从其他形式的数据中复制数据。
(1)首先建立EViews工作文件(Workfile),即确定数据性质和样本容量。
(2)从EViews主菜单中点击Quick键,选择EmptyGroup功能,打开空数据组窗口。
(3)打开word数据文件或Excel数据文件,并复制(Ctrl+C)数据。
(4)激活EViews空数据组窗口,按粘贴键(Ctrl+V)进行粘贴。
注意:
(1)如果只复制数据,粘贴时,先把光标放在空数据组窗口第一个数据的位置上。
(2)如果同时复制变量名和数据,粘贴时,要把光标放在空数据组窗口变量名位置上。
附录4:
怎样从其他形式的数据文件中直接导入数据。
(1)首先建立EViews工作文件(Workfile),即确定数据性质和样本容量。
(2)点击File键,选择Import/ReadText-Lotus-Excel功能。
从随后弹出的对话框中选定导入数据的文件名。
点击“打开”键
Orderofdata选择框中缺省选择是“按列复制”(还可以选择“按行复制”)。
在Upper-leftdatacell选择框中键入a1,表示导入第一个变量数据。
在NamefororNumberofseriesifnameinfile选择框中键入x1,表示导入第一个变量的数据在EViews工作文件中定名为x1。
点击“OK”键,Excel文件中a1所对应的数据列以x1为变量名储存在EViews工作文件中。
附录5:
图形的粘贴方法:
EViews的各种图形,有些能够直接粘贴到word文档里,有些不能。
这是需要通过图画功能,先将一些画面固定,然后再粘贴到word文档里。
具体做法如下:
在屏幕上显示需要粘贴的内容,按PrintScreem键,对整个屏幕进行复制。
点击“开始”选择“程序”、“附件”、“画图”功能,打开图画板。
按粘贴键(Ctrl+V)进行粘贴。
画板上将显示屏幕的内容。
按范围选择键,选定所要粘贴的部分,按复制键(Ctrl+C)进行复制。
激活word文档,按粘贴键(Ctrl+V),选定的画面就粘贴到了word文档。