ImageVerifierCode 换一换
格式:DOCX , 页数:33 ,大小:439.28KB ,
资源ID:22035814      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/22035814.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(对我国统计数据质量评估的定量研究初探Word下载.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

对我国统计数据质量评估的定量研究初探Word下载.docx

1、然而,我国对统计数据质量的研究还比较薄弱,对统计数据总体质量的检查,主要还是采用人工审核的办法从定性的角度进行评估,缺乏能检查和审核统计数据准确性和整体优度的定量方法和依据;对统计数据中异常点的识别,也还是依据数据间的逻辑平衡关系进行检查,缺乏能对非逻辑平衡性异常点进行识别的定量方法。迄今为止,除了统计数据质量的定性研究成果比较多见外,个别学者还从数学分布角度研究数据异常点的识别。但是,关于统计数据质量的定量研究成果还是比较少见。为了更好地满足社会经济发展过程中社会各界对统计数据的需求,政府统计数据质量的定量二级检验为了使我国统计进一步与国际接轨,增强统计数据的真实性和国际可比性,有必要对我国

2、统计数据质量的定量检验进行系统深入的研究。为了使我国GDP数据质量得到提高,我国政府部门及众多专家学者在我国GDP数据质量理论、数据质量管理及评价等方面都做出了大量的研究。在数据质量理论方面的研究及建议已经比较健全了,但与国际理论标准相比还具有一定的时滞性,且对数据质量的管理及评价方面大部分都仅停留在定性分析的角度,大都也只是考虑到数据的准确性方面,对其他影响质量的因素没有加以考虑。因此本文通过定性方面对统计数据质量特征的描述从从各个角度对我国统计数据质量进行分析,把众多的相关因素综合起来考察我国GDP数据的质量具有重大的现实意义,有利于我国政府进一步对现行理论体系进行调整,对我国统计数据质量

3、评价标准的制定具有借鉴意义。其次,本文运用多组数据多种方法定量分析的结果对政府部门做出最后决策具有一定的参考价值,最后对于现阶段出现的问题给出了针对性的政策建议。1.2研究思路与方法本文的研究思路是:首先对现有的我国统计数据质量现状进行梳理和分析,对我国统计数据质量管理方面的成就和存在的问题进行深入剖析,试图找出其出现问题的原因并找到改进的入手之处;接下来是对我国统计数据质量的实证研究,在基于我国各年度GDP与能源消耗的数据指标的协调性进行验证,并检测其中出现的异常值。为了丰富研究内容、加强研究结论的说服性,本文又采用近30年的各省市GDP进行聚类分析与异常值检测,目的是为了发现数据是否有异常

4、情况,以判定数据质量的高低;本文不仅从宏观的GDP来研究数据质量,也从微观方面对统计数据质量进行了分析,主要是采用与成都市房地产发展紧密相关的一组指标,划分出成都市房地产发展状况预警的范围,再与实际相联系,来判断微观经济数据的质量高低程度。本文运用理论分析与实证分析相结合、定性分析与定量分析相结合的方法对我国宏观和微观的数据质量进行评估,运用SPSS软件进行分析。所涉及的研究方法主要有:描述性统计方法、协调性检验、异常值检验、时间序列方法、聚类分析、主成分分析等。二、统计数据质量理论概述传统的统计数据质量仅仅指其准确性,通常用统计估计中的误差来衡量。但“质量”的概念被拓宽以后,“统计数据质量”

5、的概念也有必要拓宽。从ISO关于质量的定义出发,把用户的需求作为衡量统计数据质量高低的首要因素,那么可以把统计数据质量定义为“影响统计数据满足用户需求的特征”。但由于用户多种多样,且其对统计数据的使用目标也不一样,从而对统计数据质量的要求也不一样,因此,上述定义还不是一个具有可操作性的概念。但从这个定义出发,充分考虑不同用户的需求,可以提出一个系统而全面的统计数据质量概念(不仅政府统计数据质量的定量二级检验仅指准确性)。统计数据质量是一个具有丰富内涵的综合性概念。具体来说,它包括统计数据的内容质量、表述质量及约束标准这三大方面。2.1 统计数据的内容质量统计数据的内容质量是统计数据最基本的特征

6、,它包括准确性、相关性与及时性。一旦缺少了其中任何一个,统计数据就失去了转化为信息的性质和基本作用。因此,这三个特征也可称为统计数据质量的主要特征。(1)准确性准确性指观测值或估计值与未知的真值之间的距离(接近程度),通常用统计误差来衡量。它是统计数据质量的基础和核心内容,也是传统的“统计数据质量”概念所考虑的主要问题。一般来讲,误差分为系统误差和随机误差两部分,有时也用引起不准确性的主要潜在原因(如抽样误差、无回答误差等)来分类描述。完全准确的测量经常受到成本的限制,有时甚至是不可能的。所以关键的是误差是否已降低到用户可以接受的地步。(2)相关性相关性是指统计工作所生产的统计数据是否是用户感

7、兴趣的统计数据。统计数据的相关性反映了它满足用户需求的程度,它与所提供的可利用数据是否关注了对用户来说最重要的主题有关。由于对相关性的评价是主观的,会随用户需求目标的改变而改变,所以统计机构所要做的是平衡不同用户的互相矛盾的需求目标,在给定的资源条件限制下,尽可能的满足大部分用户的大部分需求。(3)及时性与用户需求相关的准确的统计数据如果没有在用户做出决策之前传递给用户,那么该数据对用户来说,是没有用的。所以,及时性也是统计数据能否满足用户需求的重要特征。如果该现象本身变化比较迅速,则对该类统计数据的及时性要求高;如果该现象本身变化比较缓慢,则对及时性要求不高。2.2 统计数据的表述质量对统计

8、数据质量来说,仅考虑其内容方面的质量是不够的。统计数据需要表述,特别是将某个统计数据同其他相关统计数据相互联系地加以表述时,要考虑表述的质量问题。比如单个数据的内容是正确的,但表述不清晰、不充分影响整套数据的质量,甚至引起误解。所以,统计数据质量必须考虑其表述质量。统计数据的表述质量包括可比性、可衔接性和可理解性。(1)可比性可比性是指同一项目的统计数据在时间上和空间上的可比程度。这要求统计的概念和方法在时间上保持相对稳定,在不同地区使用统一的统计制度方法和分类标准,保持统计数据的口径范围、计算方法在时间上一致衔接,在地区之间可比。(2)可衔接性可衔接性是指同一统计机构内部不同统计调查项目之间

9、、不同机构之间以及与国际组织之间统计数据的衔接程度。这要求全国范围内所有专业统计项目在统一的统计框架体系、类标准下,按统一的方法编制统计数据,在统计调查和数据加工整理中使用统一的方法和程序,同时采用国际统计标准,如联合国1993年SNA的框架体系等。(3)可理解性可理解性是指统计数据便于用户正确理解并使用的程度。统计数据是提供给用户使用的,如果某些用户不能理解,看不懂统计数据和统计分析报告,当然也就谈不上使用数据。为了恰如其分地使用从统计机构那里得到的统计数据,用户必须了解他们所获得数据的性质。这就要求统计机构在提供统计数据的同时附带提供对数据的补充说明,如提供隐含在有关概念下面的说明、已使用

10、的分类法、数据收集和加工过程中所使用的方法以及统计机构自身对数据质量的评价。2.3 统计数据质量性质之间的相互关系上述统计数据质量性质的八个方面是相互联系的,而非彼此完全独立。例如,准确性和及时性会影响信息的相关性,可理解性会直接影响信息的可比性和可衔接性,准确性与及时性有冲突,与当前相关和与历史数据保持一致可比有时也是一对矛盾,关于数据准确性的信息会成为可解释性的一种要求。注意到数据质量各方面的这些相互联系,会给统计机构的数据质量管理提供一个有用的基础。譬如,不同的用户对同一统计产品可能也有不同的质量要求,有的侧重于准确性,有的则更关注其及时性,因此,从满足用户需求的角度来看,没有统一的质量

11、评价标准。所以,政府统计机构首先要做的,就是关注主要用户的主要需求目标。另外,值得注意的是,对用户来说,如果没有统计机构所提供的附加信息(或源数据),统计数据的许多重要性质并非是显而易见的。光看数据本身,并不能推断该数据的准确性(同其它来源的数据进行比较也许对此有帮助)。但统计机构能得到源数据及调查整理过程中所使用方法的第一手资料,因此,它有义务提供对数据准确性的测度。如果没有得知隐含的概念、分类及加工过程中使用的方法,可比性和可衔接性也无法直接看出。只有及时性和可取得性能够由用户直接看出。此外,相关性、可比性、可衔接性与可取得性是对一整套统计产品来说的,并不是针对单个产品而言。统计数据的相关

12、性依赖于其它有效的信息,因此,只有对整个计划进行评价,才能得到所谓数据质量相关性的评价。同样的道理,可比性与可衔接性也是如此。对整个统计机构来说,大部分统计产品都是通过一个共同的传播体系传递,因此,可取得性也是一套产品的共同特征。另一方面,准确性、及时性和可解释性可以看成单个产品的特征。至此,一个系统而全面的统计数据质量概念可以定义为:统计数据质量是指统计数据满足用户需求的特征,包括三个方面:其一,内容方面的准确性、及时性、相关性;其二,表述方面的可比性、可衔接性、可理解性;其三,约束标准方面的可取得性和有效性,如表2.1所示:统计数据质量内容质量表述质量约束标准准确性及时性相关性可比性可衔接

13、性可理解性可取得性有效性 表2.1 统计数据质量维度毫无疑问,表中所示统计数据质量性质的八个方面之中,统计数据的准确性可谓是最重要的一个方面,为了提高统计数据的准确性,国家统计局采取了一系列改革统计制度和方法的措施和对策,总体上保证了数据的准确性、全面性、系统性及一致性。本文所探讨的对政府统计数据质量的定量二级检验是利用数学方法,先对政府统计数据质量进行准确性检验,准确性是统计数据质量的基础和核心内容,也是传统的“统计数据质量”概念所考虑的主要问题;然后再对其进行整体优度检验,将本文对统计数据质量的定义中涉及的八个方面综合考虑,从而达到衡量单个或一整套政府统计数据产品质量高低的目的。三、我国统

14、计数据质量实证分析3.1基于GDP与能源消耗指标的协调性分析3.1.1 样本变量的定义对中国统计数据质量做研究,我们选用1980到2009年反映宏观经济运行情况的两个变量:国内生产总值、能源消耗总量,共30年的数据。数据均来自中经网数据库,数据来源具有权威性和真实性。国内生产总值:指一个国家(或地区)所有常住单位在一定时期内生产活动的最终成果。国内生产总值有三种表现形态,即价值形态、收入形态和产品形态。从价值形态看,它是所有常住单位在一定时期内生产的全部货物和服务价值超过同期中间投入的全部非固定资产货物和服务价值的差额,即所有常住单位的增加值之和;从收入形态看,它是所有常住单位在一定时期内创造

15、并分配给常住单位和非常住单位的初次收入分配之和;从产品形态看,它是所有常住单位在一定时期内最终使用的货物和服务价值与货物和服务净出口价值之和。能源消耗总量:指一定时期内全国物质生产部门、非物质生产部门和生活消费的各种能源的总和,是观察能源消费水平、构成和增长速度的总量指标。能源消费总量包括原煤和原油及其制品、天然气、电力,不包括低热值燃料、生物质能和太阳能等的利用。能源消费总量分为终端能源消费量、能源加工转换损失量和损失量三部分。3.1.2 GDP与能源消耗指标的协调性分析1、GDP与能源消费的基本状况图3.1 GDP与能源消费折线图由图3.1可以看出,GDP与能源消费的发展并不是完全一致的,

16、但总的趋势是同步的。一般情况下,能源消费变化率与GDP增长率呈现正相关,即能源消费变化率提高(或降低),GDP增长率也随之提高(或降低)。同时,GDP增长率基本高于能源消费的变化率,但2003-2005年除外,这种异常情况可能是由于国家的宏观政策导致的。2、Kendall协和系数检验为了反应变量间的一致程度,可以选择Kendall协和系数不仅能检验k个相关样本是否来自统一总体,还能检验b个变量间的相关性。它表示的是K个指标间相互关联的程度(一致性程度),取值在0-1之间。Kendall协和系数可以用表示,当W愈接近1,变量间的正相关性愈好,即表现的一致性愈强;反之,当W愈接近0,变量间正相关性

17、愈差,一致性愈弱。令原假设为H0:这些评估是不相关的或者是随机的;备择假设为H1:评估师正相关的或是一致的。 操作如下:AnalyzeNonparametric TestsK-related-Samples Test Type: Friedman Test; Kendalls W 表3.1 表3.2从上表可以看出P0.001,协和系数为0.751,这个数字从整体上说明指标间的相关程度或一致性程度较好。3、协调度模型分析协调度是度量系统之间或系统内部要素之间协调状况好坏的定量指标。能源消费总量与经济发展的协调度是衡量不同经济发展水平阶段,能源消费率与经济发展水平之间的耦合程度。借鉴经济与能源协调

18、度的研究,设定能源消费与经济发展水平的协调度模型为:其中,x为经济发展的提高速度(其值为GDP增长率),y为能源消费总量的变化速率(其值=(当年能源消费总量-上年能源消费总量)/上年能源消费总量100%)。Cxy表示经济发展与能源消费的协调度,-1.414Cxy1.414。根据x、y值(如表3.3)的变化,协调度的类型和特征可定义如表3.4所示。年份gdp增长率能源消费变化速率198011.889432.879429235199526.1336766.87567726119817.610403-1.373703857199617.0788533.06153564719828.82724534.

19、407287163199710.9536580.530356826198312.0093556.40114714719986.87480270.202341272198420.8866867.36523319219996.24957123.219908359198525.0827898.149046598200010.6353863.529939033198613.965575.435434652200110.5232753.34980176198717.3567937.15151515220029.73735216.000425515198824.7475467.34716963720031

20、2.87270415.27996437198912.9596054.233469897200417.71100916.1399843319909.86040161.824953061200515.67381910.56002174199116.6793445.146753391200616.9663179.609867922199223.6071095.190638158200722.8814518.439901653199331.2383586.2498855200818.1464443.900067021199436.406745 5.81414395720098.42599115.214

21、995471 表 3.3 能源消耗与GDP的增长率Cxyx,y类型type特征Feature1.2Cxy1.414xy较协调能源消费与经济发展接近均衡,较理想1Cxy1.2x0,y0,且xy基本协调发展速度高于能源消费速度,较理想0.8Cxy1x0,y0协调能源消费增长保持在短期可接受范围内0.5Cxy0.8能源消费增长基本保持在可接受范围0Cxy0.5勉强协调能源消费增长勉强保持在可接受范围1.414Cxy0x0,y0或x0,y0不协调能源消费增长整体呈下降趋势 表3.4 协调度区间 图3.2 协调度分析图3.2表明,1980-2009年间,全国经济发展速度(GDP增长速度)和能源消费变化速

22、率的协调度总体表现出一定波动性且协调度值都较高,协调度数值都在1.01.414之间,除81年协调值为0.81外基本处于协调状态。其中1990-1999年,两个指标处于基本协调;1982-1989年和2000-2009年间处于较协调状态;1981年出现的大幅度下降情况,可能是由于当的三中全会中大声呼吁能源的节约和开发而导致的能源消费总量锐减,从而使协调度降低。4、耦合协调度分析(1)关联度分析由于指标的原始数据量纲不同, 为了能够进行时空比较, 在进行关联分析之前, 一般采用极差标准化的方法对数据进行无量纲化处理结果数据如表3.5:能源消费(X)Gdp(Y)12.17629213.374130.

23、9862631.0761042.2429215.658281.029731.1710942.25481517.373431.0956451.3117352.25937818.567821.1763421.5857132.33212819.728231.2722021.9834542.4144521.826411.3413522.2604552.4953324.123261.4372792.6527982.6450626.472231.5428783.30933.04922429.879921.6081963.7381723.54136935.171951.6375454.1067713.915

24、33840.684741.7218254.7917534.29159747.587441.8111995.9229484.65380358.476141.9243977.7731794.83530569.087482.03628410.603145.08746674.90878表3.5 数据标准化处理由表3.5得出(k)= Y(k)-X(k);min和max。即为对应差数列表:Y(k)-X(k)minmax11.1978469.82130.08984113.415360.14136415.118620.2160916.308450.40937217.396110.71125219.411960.91910321.627931.21551923.827171.76642126.830692.12997631.630582.46922636.76943.06992843.295854.11174953.822345.84878364.252178.56685769.82132表 3.6 对应差数列表然后根据表3.6算出关联系数:(k)= (min+max)/( (k)+ max)设分辨系数为:=0.5(k)0.7571410.9974330.7223990.9959670.6978050.993848199

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1