第三章数据整理.docx
《第三章数据整理.docx》由会员分享,可在线阅读,更多相关《第三章数据整理.docx(34页珍藏版)》请在冰豆网上搜索。
第三章数据整理
第三章__数据整理
第三章数据整理
第一节数据预处理
统计调查工作结束后,统计调查资料将通过各种渠道搜集上来。
在对这些数据分析整理之前,首先要对其进行预处理。
统计数据预处理是数据分组整理的先前步骤,内容包括数据的审核、筛选和排序等项工作。
一、数据审核
在对调查资料进行数据整理之前,为了保证工作的质量,必须对调查资料进行审核,以保证数据本身的质量,为进一步的数据整理、数据分组和数据分析打下基础。
数据审核的内容包括数据的完整性、准确性、适用性、及时性。
完整性是统计数据在统计信息的采集范围和内容含量上的体现,包括统计调查覆盖的范围要完整,被调查对象的报表要完整,调查内容应该包括使用者所需的所有项目;准确性是统计数据质量在统计信息客观真实性方面的体现,是统计数据质量的根本要求,也是统计数据使用者的首要要求;及时性是统计数据质量在统计信息时间价值上的体现,是对统计数据形成和提供提出的要求;适用性是统计数据质量在统计信息价值实现上的体现,也是统计工作的最终目的。
数据审核的方法主要有逻辑检查法和计算检查法。
由于调查资料的类型不同和其来源的具体渠道不同,审核的内容和方法也有所不同。
对于通过直接调查取得的原始资料主要从完整性和准确性两个方面审核。
完整性审核主要是检查应调查的单位或个体是否有遗漏,所有的调查项目或指标是否填写齐全等;准确性审核主要包括两个方面:
一是检查数据资料是否真实地反映了客观实际情况,内容是否符合实际;二是检查数据是否有错误,计算是否正确等。
审核数据的完整性和准确性的方法主要有逻辑检查法和计算检查法。
逻辑检查法主要是审核数据是否符合逻辑,内容是否合理,各项目和数字之间有无相互矛盾的现象。
例如调查某农户某年家庭生活支出结构,在家庭基本情况中知道其家庭成员为3口人,但在其年家庭食用油支出项目中,填写的数据为1000公斤,显然人口数量与食用油支出存在逻辑上的错误,对于这种错误要查明原因,如果发现应及时予以纠正。
逻辑检查法主要适合于对定性(分类和顺序)数据的审核。
计算检查是检查调查表中的各项数据在计算结果和计算方法上有无错误。
比如各分项数字之和是否等于相应的合计数,各结构之和是否等于1或100%,出现在不同表格上的同一指标数值是否相同等等。
计算检查法主要用于对定量(数量)数据的审核。
对于通过其他渠道(非直接调查)取得的二手资料,除了采用逻辑检查法和计算检查法对其完整性和准确性进行审核之外,还应该着重审核数据的适用性和及时性。
二手数据可以来自多种渠道,如期刊、报纸,或者是互联网等等,或者是已经按特定目的的需要做了加工整理的资料。
对于二手资料,使用者首先应该弄清楚来源、口径及有关背景资料,以便确定这些数据是否适合自己分析研究的需要,是否需要重新加工整理等,不能盲目生搬硬套,即审核资料的适用性。
此外,还要对数据的及时性进行审核,对于有些时效性较强的研究项目,如果所取得的数据过于滞后,可能失去研究的意义。
一般来说,应尽可能使用最新的统计数据。
数据在审核后,确认满足研究目的需要,才有必要作进一步的加工整理。
关于数据审核,传统方式是人工审核,这种审核方式对于数据量较小的情况下还基本可以完足需要,但如果数据量大,则其缺点十分明显,主要表现在:
审核人员需要量大、审核时间长、审核费用高,同时,审核过程中可能会造成二次错误。
随着计算机技术特别是数据库技术以及一些商用统计分析软件的发展,数据审核的方式已经由人工审核转向采用计算机技术进行审核,即计算机审核,其本质就是采用成熟的商用统计软件或自编计算机程序,利用计算机自动运算、运算速度快等特点进行数据审核。
在审核中发现的错误应尽可能予以纠正,在审核结束后,如果对数据中发现的错误不能予以纠正,或者一些数据不符合调查的要求而又无法弥补时,就需要对数据进行筛选。
二、数据筛选
数据的筛选包括两方面的内容:
一是将某些不符合要求的数据或有明显错误的数据予以剔除,例如,调查家庭用户使用的电视机品牌,在目前市场中,应当出现海尔、海信、长虹、康佳、创维、TCL、索尼、松下等,但如果出现希望、波导、联想等就属于错误,应当剔除,因为目前希望集团、波导公司、联想公司并没有生产电视机;二是将符合特定条件的数据筛选出来,而不符合特定条件的数据予以剔除。
数据的筛选对通过统计调查取得的数据非常必要。
下面我们给出一个例子,说明用Excel进行数据筛选的过程。
【例3.1】表3-1是某班10名学生5门课程的考试成绩数据(单位:
分)。
试找出:
(1)统计学成绩等于80分的学生;
(2)英语成绩前三名的学生;
(3)五门课成绩全部及格的学生。
表3-1某班10名学生的考试成绩数据
首先,将学生成绩录入到Excel之中,建立如表3-1所示的数据表,然后移动鼠标光标至“数据”菜单中的“筛选”命令,此时会出现一个级联菜单,包括“自动筛选”、“全部显示”、“高级筛选”三个命令。
如图3-1所示。
图3-1筛选菜单
(1)要筛选出统计学成绩等于80分的学生,可选择“自动筛选”命令,这时,在各列数据的第一行会出现下拉箭头,用鼠标单击“统计学”列的下拉箭头,出现表3-2所示结果。
然后单击选择“80”,出现表3-3所示结果。
表3-2自动筛选(80分)
表3-3自动筛选(80分)结果表
(2)要筛选出英语成绩前三名的学生,可选择“前10个”,并在对话框中输入3,结果如表3-4所示。
表3-4自动筛选(前3名)结果表
(3)要筛选出五门课成绩全部及格的学生,即五门课成绩必须同时大于或等60分。
此时,需要使用“高级筛选”命令。
使用“高级筛选”时,必须建立条件区域,针对本次筛选建立的条件区域如表3-5所示,即每门成绩的筛选条件是“>=60”。
然后单击“高级筛选”命令,分别在“列表区域”和“条件区域”中输入数据区域和条件区域的单元格引用,如图3-2所示,单击确定,结果如表3-6所示。
表3-5条件筛选
图3-2条件筛选设置
表3-6条件筛选结果表
三、数据排序
数据排序是按一定顺序将数据排列,以便于研究者通过浏览数据发现一些明显的特征和趋势,找到待解决问题的线索。
除此之外,排序还有助于对数据检查纠错,以及重新归类和分组等提供方便。
在某些场合,排序本身就是分析的目的之一,例如,调查国内手机市场占前三名的品牌,这对于国内手机厂商而言无论是寻求合作还是制定营销的战略和战术应对竞争,都是很有用的信息。
又如,目前我国央视二套每年年底都要公布在我国市场上销售的国内、国外品牌汽车的产销量及其排名,通过这一信息,对于我国的汽车生产企业而言,不仅可以了解国外、国内汽车在我国市场上的产销现状,同时还可以了解本企业相对于国外企业及国内企业所处的地位,从而进一步找出差距,制定更加有效企业发展战略和规划。
分类数据,如果是字母型数据,排序有升序降序之分,但习惯上更经常用升序,因为升序与字母的自然排列相同。
如果是汉字型数据,排序方式很多,比如按汉字的首位拼音字母排列,这与字母型数据的排序完全一样,如表3-7所示(地区、升序),也可按姓氏笔划排序,其中也有笔划多少的升序降序之分,如表3-8所示(地区、升序)。
交替运用不同方式排序,在汉字型数据的检查纠错过程中十分有用。
表3-72003年全国各地批发、零售、餐饮产值表
地区
合计
批发业
零售业
餐饮业
安徽
124925
58672
51698
14555
北京
280286
80989
144910
54387
福建
172847
65323
58646
48878
甘肃
48499
18087
19970
10442
广东
579179
164578
164899
249702
广西
109640
39735
47181
22724
贵州
58458
26899
19675
11884
海南
21582
5873
6026
9683
河北
198310
76292
104858
17160
河南
300659
118419
149221
33019
黑龙江
114565
46713
56437
11415
湖北
239598
100054
90990
48554
湖南
180774
59459
76561
44754
吉林
92377
37362
40405
14610
江苏
461865
123105
247060
91700
江西
80025
34743
31481
13801
辽宁
199557
57921
103884
37752
内蒙古
62402
21850
26765
13787
宁夏
23444
7019
10531
5894
青海
14788
6400
5785
2603
山东
440796
130585
220388
89823
山西
135326
46736
66813
21777
陕西
83560
28872
42177
12511
上海
324465
99628
174932
49905
四川
159564
48491
71023
40050
天津
105019
38691
47752
18576
西藏
3253
1136
2117
-
新疆
67291
34477
23028
9786
云南
98665
53354
34722
10589
浙江
279326
103939
92750
82637
重庆
139452
51267
48410
39775
资料来源:
《中国统计年鉴》(2004年)。
表3-7和表3-8)或一个以上的指标排序,如表3-9中数据先按批发业指标升序排序,再按零售业指标升序排序。
都可借助于计算机很容易地完成。
表3-92003年全国各地批发、零售、餐饮产值表
地区
合计
批发业
零售业
餐饮业
西藏
3253
1136
2117
-
海南
21582
5873
6026
9683
青海
14788
6400
5785
2603
宁夏
23444
7019
10531
5894
甘肃
48499
18087
19970
10442
内蒙古
62402
21850
26765
13787
贵州
58458
26899
19675
11884
陕西
83560
28872
42177
12511
新疆
67291
34477
23028
9786
江西
80025
34743
31481
13801
吉林
92377
37362
40405
14610
天津
105019
38691
47752
18576
广西
109640
39735
47181
22724
黑龙江
114565
46713
56437
11415
山西
135326
46736
66813
21777
四川
159564
48491
71023
40050
重庆
139452
51267
48410
39775
云南
98665
53354
34722
10589
辽宁
199557
57921
103884
37752
安徽
124925
58672
51698
14555
湖南
180774
59459
76561
44754
福建
172847
65323
58646
48878
河北
198310
76292
104858
17160
北京
280286
80989
144910
54387
上海
324465
99628
174932
49905
湖北
239598
100054
90990
48554
浙江
279326
103939
92750
82637
河南
300659
118419
149221
33019
江苏
461865
123105
247060
91700
山东
440796
130585
220388
89823
广东
579179
164578
164899
249702
资料来源:
《中国统计年鉴》(2004年)。
第二节数据分组
经过预处理后的数据,可进一步做分类和分组整理,从而将那些大量无序的、混沌的数据整理为有序的、层次分明的、显示总体数量特征的可用于统计分析的数据资料。
数据分组是数据整理中的一项重要工作,它是根据统计研究的需要,将数据按某种特征或标准分成不同的组别,形成分组数据。
因为任何总体内部各单位之间都是既有共性又有差异性的,数据分组便是以这种共性和差异性的对立统一为基础的最基本的整理方法,它对于自然科学和社会科学的研究都是必不可少的。
在社会经济统计研究中,数据分组有划分现象的类型、研究总体的结构和研究现象之间的依存关系等重要作用。
数据分组包括分组依据选择、分组界限确定、分组形式确定。
一、分组依据选择
1.分组依据
分组依据即分组标志,就是分组时用来划分资料的统计标志,也是划分资料的标准和依据。
数据分组的关键在于分组依据的选择,只有符合研究目的需要的分组依据,才能使统计分析得出正确的结论,不同的研究目的,所采取的分组依据不同。
即使同一研究目的,也可能有若干个分组依据与此相关,要选择其中最能揭示经济现象本质的分组依据来分组,这是数据分组的基本原则。
因此,正确选择分组依据,是科学分组的前提,也是数据分组的关键。
在选择分组依据时,品质标志和数量标志都可以作为分组依据,品质标志是说明事物的性质或属性特征的,它不能用数值来表现,如人口的性别、产品等级、企业的经济性质等;数量标志是说明事物数量特征的,它可以具体表现为数值,如人口规模、国民生产总值、企业产值等。
以品质标志作为分组依据进行分组称为品质标志分组,以数量标志作为分组依据称为数量标志分组,品质标志分组就是根据事物的质量属性进行分组,数量标志分组就是根据事物的数量差异进行分组。
2.分组依据选择的原则
选择分组依据必须遵循以下原则:
(1)根据统计研究目的,选择最重要、最能反映实际情况的分组依据。
统计研究的目的不同,需要采用的分组依据也就不同。
如果有多个分组标志都可以满足研究的需要,就应该选择最有实际意义的标志作为分组依据。
例如,在工业生产统计中,当研究目的是为了分析不同规模的企业生产情况时,应当选择产品数量或生产能力作为分组依据,将企业总体规划分成大、中、小三组;当研究目的在于确定工业内部比例及平衡关系时,就应该按部门类别作为分组依据。
(2)选择能够反映经济现象本质特征的标志作为分组依据。
任何经济现象在其发展过程中所表现出的特征都可能是多种多样的,现象之间的联系也十分广泛,现象即可能按这种特征归类,也可按那种现象归类。
然而,在反映现象特征的若干标志中,有些是根本性的,能够反映现象质的差异;而有些则是非本质的、次要的。
进行数据分组时,就应该选择那些能够代表现象本质性的标志作为分组依据。
例如,研究职工生活水平情况时,有工资水平,家庭成员平均收入等好几个标志。
按职工家庭成员平均收入分组就能反映职工实际生活水平,所以家庭成员平均收入就是反映现象本质特征的分组依据。
(3)分组依据的选择还应考虑社会经济现象和历史条件的变化状况。
在研究目的相同的情况下,由于研究对象所处的具体历史条件和客观经济条件不同,需要采用的分组依据也会有所不同。
例如,反映工业企业生产规模的标志很多,如产品生产能力、职工人数、固定资产价值、增加值等。
在科学技术不发达的条件下,把职工人数作为划分企业规模的依据是比较恰当的;而在科学技术发达、技术装备比较先进的条件下,继续按职工人数划分企业规模的大小,就无法比较准确地反映作为第一生产力的科学技术在生产中的重要作用。
因而采用产品生产能力或固定资产价值作为分组依据更切合实际些。
二、分组界限确定
分组标志确定之后,正确地确定分组组数和划定各组界限,就涉及到分组的具体方法。
组限的确定应遵循穷尽和互斥的原则,即一个数据必须能分配进入一个特定的组,并且一个数据只能分配进入一个特定的组。
根据分组标志的特征不同,统计总体可以按品质标志分组,也可以按数量标志分组。
1.按品质标志分组
按品质标志分组,就是选择反映事物属性差异的品质标志作为分组的依据,并在品质标志的变异范围内按属性不同划定各组界限,将总体区分为若干性质不同的组成部分。
例如,根据企业性质不同,可将被调查的企业分为国有企业、集体企业、三资企业等;根据劳动力所处行业不同,可分为第一产业劳动力、第二产业劳动力、第三产业劳动力等等。
表3-10J是按性别品质标志的人口分组。
表3-10我国五次人中普查性别分组表单位:
万人
性别
1953
1964
1982
1990
2000
男
30799
35652
51944
58495
65355
女
28636
33806
48874
54873
61228
合计
59435
69458
100818
113368
126583
资料来源:
摘自《中国统计年鉴(2004)》,五次全国人口普查人口基本情况表。
表中数据未包括香港、澳门特别行政区及台湾省数据。
品质标志包含的各种不同变异,其社会经济性质的差异比较明确,区分也比较容易,如表3-10按性别分组。
因而根据变异的性质不同来划分各组界限也不十分困难。
一般情况下,品质标志一旦选定,分组的组数和各组的界限仅取决于统计分析对分组粗细的要求。
但是,有时也会遇到因难。
因为存在着两种性质的变异之间的过渡形态,使组限不易划分,如调查城市居民的生活状况,在选择调查对象的时候,处于城乡结合部的居民就是介于城市居民和农村居民之间的过渡形态,对于这种存在过渡形态的情况,在调查之前就应对其做出明确的界定。
在我国统计工作实践中,对重要的品质标志分组,往往编有标准的分类目录,以统一全国的分组口径。
例如,新的国民经济行业分类标准(GB/T4575-2002)就是国家标准分类。
2.按数量标志分组
按数量标志分组,就是选择反映事物数量差异的数量标志作为分组的依据,并在数量标志的变异范围内划定各组的界限,将总体划分为性质不同的若干组成部分。
按数量标志分组,应当根据统计的研究目的,先研究确定总体在已选定的数量标志的特征下有多少个组,然后再仔细研究确定各组之间的数量界限。
例如,对学生按考试成绩分组,研究学生的学习情况。
若进行粗略的划分,可分为及格与不及格这样性质不同的两个组,而区分及格与不及格的数量界限一般为60分,在确定各组数量界限时,应考虑在不影响准确性的前提下,表明各组数量界限的数值应尽可能取整齐的数值,以方便计算。
就具体的分组而言,又可分为单项式分组和组距式分组两种形式。
单项式分组即变量的一个数值为一组,适用于离散型变量,并且变量的取值较少。
表3-11是对某城镇居民户彩色电视机分组所形成的单项式数列,从中可以看出彩色电视机数分布在1-3台之间,并且拥有1台彩色电视机的家庭户比较集中,共占70.50%。
表3-112004年未某城镇居民家庭自行车拥有量分布
自行车拥有量(辆)
居民户数(万户)
比重(%)
1
2
3
7.05
2.54
0.41
70.50
25.40
4.1
合计
10
100.00
组距式分组即每一组有一个上限值和一个下限值所形成的区间,适用于连续型变量或离散型变量且取值较多的情况。
在组距式分组中,各组的组距完全相等,叫等距式分组;各组的组距不完全相等,叫异距式分组。
前者适用于总体各单位的变量值由小到大呈均匀变化的情况,后者则适用于不均匀变化的情况。
等距式分组见表3-12所示,异距式分组见表3-13所示。
表3-12按月销售客分组所形成的等距式分组
月销售额(万元)
门店家数
10∼20
10
20∼30
25
30∼40
20
40∼50
18
50∼60
14
60∼70
13
合计
100
表3-13按居民的收入分组所形成的异距式分组
人均收入(元)
组中值
户数
500元以下
500∼1000元以下
1000∼2000元以下
2000∼3000元以下
3000∼5000元以下
5000∼8000元以下
8000以上
250
750
1500
2500
4000
6500
9500
30
120
180
100
40
20
10
合计
500
对于组距式分组组限的确定一般比较复杂。
从理论上讲,确定的组限应能把现象的不同类型划分出来,如以上提及的考试成绩按及格不及格分组。
但是,实际上确定定量数据的组限时往往具有主观性,选择不同的分组组限还可能会产生完全不一样的结果。
例如表3-13按居民的收入分组就是如此,这时就是根据经验取整数,或者根据当时当地的具体情况而定,如某地现在的人均收入500元以下为低收入、个人收入调节税的起征点为1600元,则500元和1600元都可以成为组限。
另一方面,组限的确定还要考虑到数据是连续型变量还是离散型变量。
为了不重复和不遗漏,编制离散型变量的组距数列时,最好用两个相邻的整数分别表示较小的一组的上限和比它大的那组的下限,如对考试成绩分组时分成“70∼79”“80∼89”这样的形式。
编制连续型变量的组距数列时,就需要用以下、以上等文字加以说明,如按居民的收入分组,可分成“500∼1000元以下”“1000∼1500元以下”这样的形式;或者如表3-6那样,用同一个整数分别表示较小的一组的上限和比它大的那组的下限,即用“25∼30”“30∼35”的形式,此时一般以每组的下限为闭区间、上限为开区间。
有时,在调查表的设计时无法确定实际数据的取值范围,或者数据中存在极端数值,即存在着个别特别大或特别小的数值,组距数列中就可采用开口组的形式,这时最小一组没有标出下限或最大一组没有标出上限。
例如,按照联合国的有关标准,人口年龄可分为“0∼14岁”、“15∼60岁”或“15∼65岁”、“60岁以上”或“65岁以上”三组,分别表示少儿人口组、成年人口组和老年人口组。
再如,对考试成绩分组时,不及格这组常用“60分以下”表示。
开口组组中值的计算方法是以相邻一组的组距为准,所以其结果更为近似。
三、分组形式确定
统计分组的目的与要求决定了统计分组标志的选择,统计分组可以用一个标志,也可以用多个标志进行分组。
按照统计分组中所选择的标志数目可将统计分组划分为简单分组、复合分组及体系分组。
1、简单分组
简单分组就是只采用一个分组标志对总体单位进行分组的方式。
例如,按性别标志分组可将职工分为男、女两组;按农村居民人均纯收入分组可将农户分为若干组等。
这些都是直接用一个重要标志对总体进行分组,是为简单分组。
如表3-14。
表3-141998年我国大陆人口按性别分组表
按性别分组
人数(万人)
比重(%)
男
女
63629
61181
50.89
49.02
合计
124810
100.00
资料来源:
《中国统计年鉴(1999)》
2、复合分组
复合分组是对总体选择两个或两个以上的有联系的或互为补充的标志的多层次分组方式。
复合分组的特点是:
用第