对我国统计数据质量评估的定量研究初探Word下载.docx

上传人:b****6 文档编号:22035814 上传时间:2023-02-02 格式:DOCX 页数:33 大小:439.28KB
下载 相关 举报
对我国统计数据质量评估的定量研究初探Word下载.docx_第1页
第1页 / 共33页
对我国统计数据质量评估的定量研究初探Word下载.docx_第2页
第2页 / 共33页
对我国统计数据质量评估的定量研究初探Word下载.docx_第3页
第3页 / 共33页
对我国统计数据质量评估的定量研究初探Word下载.docx_第4页
第4页 / 共33页
对我国统计数据质量评估的定量研究初探Word下载.docx_第5页
第5页 / 共33页
点击查看更多>>
下载资源
资源描述

对我国统计数据质量评估的定量研究初探Word下载.docx

《对我国统计数据质量评估的定量研究初探Word下载.docx》由会员分享,可在线阅读,更多相关《对我国统计数据质量评估的定量研究初探Word下载.docx(33页珍藏版)》请在冰豆网上搜索。

对我国统计数据质量评估的定量研究初探Word下载.docx

然而,我国对统计数据质量的研究还比较薄弱,对统计数据总体质量的检查,主要还是采用人工审核的办法从定性的角度进行评估,缺乏能检查和审核统计数据准确性和整体优度的定量方法和依据;

对统计数据中异常点的识别,也还是依据数据间的逻辑平衡关系进行检查,缺乏能对非逻辑平衡性异常点进行识别的定量方法。

迄今为止,除了统计数据质量的定性研究成果比较多见外,个别学者还从数学分布角度研究数据异常点的识别。

但是,关于统计数据质量的定量研究成果还是比较少见。

为了更好地满足社会经济发展过程中社会各界对统计数据的需求,政府统计数据质量的定量二级检验为了使我国统计进一步与国际接轨,增强统计数据的真实性和国际可比性,有必要对我国统计数据质量的定量检验进行系统深入的研究。

为了使我国GDP数据质量得到提高,我国政府部门及众多专家学者在我国GDP数据质量理论、数据质量管理及评价等方面都做出了大量的研究。

在数据质量理论方面的研究及建议已经比较健全了,但与国际理论标准相比还具有一定的时滞性,且对数据质量的管理及评价方面大部分都仅停留在定性分析的角度,大都也只是考虑到数据的准确性方面,对其他影响质量的因素没有加以考虑。

因此本文通过定性方面对统计数据质量特征的描述从从各个角度对我国统计数据质量进行分析,把众多的相关因素综合起来考察我国GDP数据的质量具有重大的现实意义,有利于我国政府进一步对现行理论体系进行调整,对我国统计数据质量评价标准的制定具有借鉴意义。

其次,本文运用多组数据多种方法定量分析的结果对政府部门做出最后决策具有一定的参考价值,最后对于现阶段出现的问题给出了针对性的政策建议。

1.2研究思路与方法

本文的研究思路是:

首先对现有的我国统计数据质量现状进行梳理和分析,对我国统计数据质量管理方面的成就和存在的问题进行深入剖析,试图找出其出现问题的原因并找到改进的入手之处;

接下来是对我国统计数据质量的实证研究,在基于我国各年度GDP与能源消耗的数据指标的协调性进行验证,并检测其中出现的异常值。

为了丰富研究内容、加强研究结论的说服性,本文又采用近30年的各省市GDP进行聚类分析与异常值检测,目的是为了发现数据是否有异常情况,以判定数据质量的高低;

本文不仅从宏观的GDP来研究数据质量,也从微观方面对统计数据质量进行了分析,主要是采用与成都市房地产发展紧密相关的一组指标,划分出成都市房地产发展状况预警的范围,再与实际相联系,来判断微观经济数据的质量高低程度。

本文运用理论分析与实证分析相结合、定性分析与定量分析相结合的方法对我国宏观和微观的数据质量进行评估,运用SPSS软件进行分析。

所涉及的研究方法主要有:

描述性统计方法、协调性检验、异常值检验、时间序列方法、聚类分析、主成分分析等。

二、统计数据质量理论概述

传统的统计数据质量仅仅指其准确性,通常用统计估计中的误差来衡量。

但“质量”的概念被拓宽以后,“统计数据质量”的概念也有必要拓宽。

从ISO关于质量的定义出发,把用户的需求作为衡量统计数据质量高低的首要因素,那么可以把统计数据质量定义为“影响统计数据满足用户需求的特征”。

但由于用户多种多样,且其对统计数据的使用目标也不一样,从而对统计数据质量的要求也不一样,因此,上述定义还不是一个具有可操作性的概念。

但从这个定义出发,充分考虑不同用户的需求,可以提出一个系统而全面的统计数据质量概念(不仅政府统计数据质量的定量二级检验仅指准确性)。

统计数据质量是一个具有丰富内涵的综合性概念。

具体来说,它包括统计数据的内容质量、表述质量及约束标准这三大方面。

2.1统计数据的内容质量

统计数据的内容质量是统计数据最基本的特征,它包括准确性、相关性与及时性。

一旦缺少了其中任何一个,统计数据就失去了转化为信息的性质和基本作用。

因此,这三个特征也可称为统计数据质量的主要特征。

(1)准确性

准确性指观测值或估计值与未知的真值之间的距离(接近程度),通常用统计误差来衡量。

它是统计数据质量的基础和核心内容,也是传统的“统计数据质量”概念所考虑的主要问题。

一般来讲,误差分为系统误差和随机误差两部分,有时也用引起不准确性的主要潜在原因(如抽样误差、无回答误差等)来分类描述。

完全准确的测量经常受到成本的限制,有时甚至是不可能的。

所以关键的是误差是否已降低到用户可以接受的地步。

(2)相关性

相关性是指统计工作所生产的统计数据是否是用户感兴趣的统计数据。

统计数据的相关性反映了它满足用户需求的程度,它与所提供的可利用数据是否关注了对用户来说最重要的主题有关。

由于对相关性的评价是主观的,会随用户需求目标的改变而改变,所以统计机构所要做的是平衡不同用户的互相矛盾的需求目标,在给定的资源条件限制下,尽可能的满足大部分用户的大部分需求。

(3)及时性

与用户需求相关的准确的统计数据如果没有在用户做出决策之前传递给用户,那么该数据对用户来说,是没有用的。

所以,及时性也是统计数据能否满足用户需求的重要特征。

如果该现象本身变化比较迅速,则对该类统计数据的及时性要求高;

如果该现象本身变化比较缓慢,则对及时性要求不高。

2.2统计数据的表述质量

对统计数据质量来说,仅考虑其内容方面的质量是不够的。

统计数据需要表述,特别是将某个统计数据同其他相关统计数据相互联系地加以表述时,要考虑表述的质量问题。

比如单个数据的内容是正确的,但表述不清晰、不充分影响整套数据的质量,甚至引起误解。

所以,统计数据质量必须考虑其表述质量。

统计数据的表述质量包括可比性、可衔接性和可理解性。

(1)可比性

可比性是指同一项目的统计数据在时间上和空间上的可比程度。

这要求统计的概念和方法在时间上保持相对稳定,在不同地区使用统一的统计制度方法和分类标准,保持统计数据的口径范围、计算方法在时间上一致衔接,在地区之间可比。

(2)可衔接性

可衔接性是指同一统计机构内部不同统计调查项目之间、不同机构之间以及与国际组织之间统计数据的衔接程度。

这要求全国范围内所有专业统计项目在统一的统计框架体系、类标准下,按统一的方法编制统计数据,在统计调查和数据加工整理中使用统一的方法和程序,同时采用国际统计标准,如联合国1993年SNA的框架体系等。

(3)可理解性

可理解性是指统计数据便于用户正确理解并使用的程度。

统计数据是提供给用户使用的,如果某些用户不能理解,看不懂统计数据和统计分析报告,当然也就谈不上使用数据。

为了恰如其分地使用从统计机构那里得到的统计数据,用户必须了解他们所获得数据的性质。

这就要求统计机构在提供统计数据的同时附带提供对数据的补充说明,如提供隐含在有关概念下面的说明、已使用的分类法、数据收集和加工过程中所使用的方法以及统计机构自身对数据质量的评价。

2.3统计数据质量性质之间的相互关系

上述统计数据质量性质的八个方面是相互联系的,而非彼此完全独立。

例如,准确性和及时性会影响信息的相关性,可理解性会直接影响信息的可比性和可衔接性,准确性与及时性有冲突,与当前相关和与历史数据保持一致可比有时也是一对矛盾,关于数据准确性的信息会成为可解释性的一种要求。

注意到数据质量各方面的这些相互联系,会给统计机构的数据质量管理提供一个有用的基础。

譬如,不同的用户对同一统计产品可能也有不同的质量要求,有的侧重于准确性,有的则更关注其及时性,因此,从满足用户需求的角度来看,没有统一的质量评价标准。

所以,政府统计机构首先要做的,就是关注主要用户的主要需求目标。

另外,值得注意的是,对用户来说,如果没有统计机构所提供的附加信息(或源数据),统计数据的许多重要性质并非是显而易见的。

光看数据本身,并不能推断该数据的准确性(同其它来源的数据进行比较也许对此有帮助)。

但统计机构能得到源数据及调查整理过程中所使用方法的第一手资料,因此,它有义务提供对数据准确性的测度。

如果没有得知隐含的概念、分类及加工过程中使用的方法,可比性和可衔接性也无法直接看出。

只有及时性和可取得性能够由用户直接看出。

此外,相关性、可比性、可衔接性与可取得性是对一整套统计产品来说的,并不是针对单个产品而言。

统计数据的相关性依赖于其它有效的信息,因此,只有对整个计划进行评价,才能得到所谓数据质量相关性的评价。

同样的道理,可比性与可衔接性也是如此。

对整个统计机构来说,大部分统计产品都是通过一个共同的传播体系传递,因此,可取得性也是一套产品的共同特征。

另一方面,准确性、及时性和可解释性可以看成单个产品的特征。

至此,一个系统而全面的统计数据质量概念可以定义为:

统计数据质量是指统计数据满足用户需求的特征,包括三个方面:

其一,内容方面的准确性、及时性、相关性;

其二,表述方面的可比性、可衔接性、可理解性;

其三,约束标准方面的可取得性和有效性,如表2.1所示:

统计数据质量

内容质量

表述质量

约束标准

准确性

及时性

相关性

可比性

可衔接性

可理解性

可取得性

有效性

表2.1统计数据质量维度

毫无疑问,表中所示统计数据质量性质的八个方面之中,统计数据的准确性可谓是最重要的一个方面,为了提高统计数据的准确性,国家统计局采取了一系列改革统计制度和方法的措施和对策,总体上保证了数据的准确性、全面性、系统性及一致性。

本文所探讨的对政府统计数据质量的定量二级检验是利用数学方法,先对政府统计数据质量进行准确性检验,准确性是统计数据质量的基础和核心内容,也是传统的“统计数据质量”概念所考虑的主要问题;

然后再对其进行整体优度检验,将本文对统计数据质量的定义中涉及的八个方面综合考虑,从而达到衡量单个或一整套政府统计数据产品质量高低的目的。

三、我国统计数据质量实证分析

3.1基于GDP与能源消耗指标的协调性分析

3.1.1样本变量的定义

对中国统计数据质量做研究,我们选用1980到2009年反映宏观经济运行情况的两个变量:

国内生产总值、能源消耗总量,共30年的数据。

数据均来自中经网数据库,数据来源具有权威性和真实性。

国内生产总值:

 

指一个国家(或地区)所有常住单位在一定时期内生产活动的最终成果。

国内生产总值有三种表现形态,即价值形态、收入形态和产品形态。

从价值形态看,它是所有常住单位在一定时期内生产的全部货物和服务价值超过同期中间投入的全部非固定资产货物和服务价值的差额,即所有常住单位的增加值之和;

从收入形态看,它是所有常住单位在一定时期内创造并分配给常住单位和非常住单位的初次收入分配之和;

从产品形态看,它是所有常住单位在一定时期内最终使用的货物和服务价值与货物和服务净出口价值之和。

能源消耗总量:

指一定时期内全国物质生产部门、非物质生产部门和生活消费的各种能源的总和,是观察能源消费水平、构成和增长速度的总量指标。

能源消费总量包括原煤和原油及其制品、天然气、电力,不包括低热值燃料、生物质能和太阳能等的利用。

能源消费总量分为终端能源消费量、能源加工转换损失量和损失量三部分。

3.1.2GDP与能源消耗指标的协调性分析

1、GDP与能源消费的基本状况

图3.1GDP与能源消费折线图

由图3.1可以看出,GDP与能源消费的发展并不是完全一致的,但总的趋势是同步的。

一般情况下,能源消费变化率与GDP增长率呈现正相关,即能源消费变化率提高(或降低),GDP增长率也随之提高(或降低)。

同时,GDP增长率基本高于能源消费的变化率,但2003-2005年除外,这种异常情况可能是由于国家的宏观政策导致的。

2、Kendall协和系数检验

为了反应变量间的一致程度,可以选择Kendall协和系数不仅能检验k个相关样本是否来自统一总体,还能检验b个变量间的相关性。

它表示的是K个指标间相互关联的程度(一致性程度),取值在0-1之间。

Kendall协和系数可以用

表示,当W愈接近1,变量间的正相关性愈好,即表现的一致性愈强;

反之,当W愈接近0,变量间正相关性愈差,一致性愈弱。

令原假设为H0:

这些评估是不相关的或者是随机的;

备择假设为H1:

评估师正相关的或是一致的。

操作如下:

Analyze→NonparametricTests→K-related-Samples

TestType:

FriedmanTest;

Kendall’sW

表3.1表3.2

从上表可以看出P<0.001,协和系数为0.751,这个数字从整体上说明指标间的相关程度或一致性程度较好。

3、协调度模型分析

协调度是度量系统之间或系统内部要素之间协调状况好坏的定量指标。

能源消费总量与经济发展的协调度是衡量不同经济发展水平阶段,能源消费率与经济发展水平之间的耦合程度。

借鉴经济与能源协调度的研究,设定能源消费与经济发展水平的协调度模型为:

其中,x为经济发展的提高速度(其值为GDP增长率),y为能源消费总量的变化速率(其值=(当年能源消费总量-上年能源消费总量)/上年能源消费总量×

100%)。

Cxy表示经济发展与能源消费的协调度,-1.414≤Cxy≤1.414。

根据x、y值(如表3.3)的变化,协调度的类型和特征可定义如表3.4所示。

年份

gdp增长率

能源消费变化速率

1980

11.88943

2.879429235

1995

26.133676

6.875677261

1981

7.610403

-1.373703857

1996

17.078853

3.061535647

1982

8.8272453

4.407287163

1997

10.953658

0.530356826

1983

12.009355

6.401147147

1998

6.8748027

0.202341272

1984

20.886686

7.365233192

1999

6.2495712

3.219908359

1985

25.082789

8.149046598

2000

10.635386

3.529939033

1986

13.96557

5.435434652

2001

10.523275

3.34980176

1987

17.356793

7.151515152

2002

9.7373521

6.000425515

1988

24.747546

7.347169637

2003

12.872704

15.27996437

1989

12.959605

4.233469897

2004

17.711009

16.13998433

1990

9.8604016

1.824953061

2005

15.673819

10.56002174

1991

16.679344

5.146753391

2006

16.966317

9.609867922

1992

23.607109

5.190638158

2007

22.881451

8.439901653

1993

31.238358

6.2498855

2008

18.146444

3.900067021

1994

36.406745

5.814143957

2009

8.4259911

5.214995471

表3.3能源消耗与GDP的增长率

Cxy

x,y

类型type

特征Feature

1.2≤Cxy≤1.414

x≈y

较协调

能源消费与经济发展接近均衡,较理想

1≤Cxy<1.2

x>0,y>0,且x>y

基本协调

发展速度高于能源消费速度,较理想

0.8≤Cxy<1

x>0,y<0

协调

能源消费增长保持在短期可接受范围内

0.5≤Cxy<0.8

能源消费增长基本保持在可接受范围

0≤Cxy<0.5

勉强协调

能源消费增长勉强保持在可接受范围

-1.414≤Cxy<0

x>0,y<0或x<0,y<0

不协调

能源消费增长整体呈下降趋势

表3.4协调度区间

图3.2协调度分析

图3.2表明,1980-2009年间,全国经济发展速度(GDP增长速度)和能源消费变化速率的协调度总体表现出一定波动性且协调度值都较高,协调度数值都在1.0~1.414之间,除81年协调值为0.81外基本处于协调状态。

其中1990-1999年,两个指标处于基本协调;

1982-1989年和2000-2009年间处于较协调状态;

1981年出现的大幅度下降情况,可能是由于当的三中全会中大声呼吁能源的节约和开发而导致的能源消费总量锐减,从而使协调度降低。

4、耦合协调度分析

(1)关联度分析

由于指标的原始数据量纲不同,为了能够进行时空比较,在进行关联分析之前,一般采用极差标准化的方法对数据进行无量纲化处理结果数据如表3.5:

能源消费(X)

Gdp(Y)

1

2.176292

13.37413

0.986263

1.076104

2.24292

15.65828

1.02973

1.171094

2.254815

17.37343

1.095645

1.311735

2.259378

18.56782

1.176342

1.585713

2.332128

19.72823

1.272202

1.983454

2.41445

21.82641

1.341352

2.260455

2.49533

24.12326

1.437279

2.652798

2.64506

26.47223

1.542878

3.3093

3.049224

29.87992

1.608196

3.738172

3.541369

35.17195

1.637545

4.106771

3.915338

40.68474

1.721825

4.791753

4.291597

47.58744

1.811199

5.922948

4.653803

58.47614

1.924397

7.773179

4.835305

69.08748

2.036284

10.60314

5.087466

74.90878

表3.5数据标准化处理

由表3.5得出Δ(k)=Y(k)-X(k);

Δmin和Δmax。

即为对应差数列表:

Y(k)-X(k)

Δmin

Δmax

11.19784

69.8213

0.089841

13.41536

0.141364

15.11862

0.21609

16.30845

0.409372

17.39611

0.711252

19.41196

0.919103

21.62793

1.215519

23.82717

1.766421

26.83069

2.129976

31.63058

2.469226

36.7694

3.069928

43.29585

4.111749

53.82234

5.848783

64.25217

8.566857

69.82132

表3.6对应差数列表

然后根据表3.6算出关联系数:

ξ(k)=(Δmin+ζΔmax)/(Δ(k)+ζΔmax)

设分辨系数为:

ζ=0.5

ξ(k)

0.757141

0.997433

0.722399

0.995967

0.697805

0.993848

199

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 农学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1