第15章 第15章 SPSS在经济分析中的应用.docx
《第15章 第15章 SPSS在经济分析中的应用.docx》由会员分享,可在线阅读,更多相关《第15章 第15章 SPSS在经济分析中的应用.docx(58页珍藏版)》请在冰豆网上搜索。
第15章第15章SPSS在经济分析中的应用
第15章SPSS在经济分析中的应用
在经济分析中,要考虑经济现象的影响因素,通常需要从全面的角度考虑很多经济变量和指标,有时还需要构造变量体系,如何在这许多经济变量中抓住经济现象的主要影响因素,简化变量结构,变复杂为简单,同时保证结论的科学性,是经济分析中的一大挑战。
同时,经济变量和指标往往具有不同程度的相关性,即信息重叠,有时甚至是高度的相关性,在建立经济模型时,都必须要谨慎处理这种相关性,否则变量相关很可能导致错误的分析结论,如何排除变量相关性,得到合理的经济模型,是经济分析中另外一大挑战。
当然经济分析中还有其他的问题,例如变量的分布,变量的内生性和外生性等,此处就不再赘述了。
在经济分析中,因为要同时解决降维和消除相关性的问题,因此因子分析和主成分分析有很多应用。
当然,因子分析有时是作为一个中间过程,其结果(因子得分)再应用于其他统计分析模型,最终得到分析结果。
除了因子分析以外,SPSS还有许多应用,本章只是举出了3个案例用以说明在经济分析中应用SPSS应该注意的问题。
第一个案例应用SPSS的因子分析提取变量信息,在进行样本聚类,接着对每一分类拟合回归模型说明变量之间的关系;第二、三个例子都是首先运用因子分析,然后针对因子得分进行综合评价;相对而言第二个例子简单一些,而第三个案例由于进行了两层的因子分析,因此更复杂,结果更丰富。
这里需要专门讲讲综合评价,因为其在经济分析中有非常重要的地位。
综合评价法是运用多个指标对多个参评单位进行评价的方法,其基本思想是将多个指标转化为一个能够反映综合情况的指标来进行评价。
不同国家经济实力、不同地区社会发展水平、小康生活水平达标进程、企业经济效益评价等都可以使用综合评价。
综合评价评价过程不是逐个指标顺次完成的,而是通过一些特殊方法将多个指标的评价同时完成的;在综合评价过程中,一般要根据指标的重要性进行加权处理;评价结果不再是具有具体含义的统计指标,而是以指数或分值表示参评单位"综合状况"的排序。
我国1980年以前,多指标综合评价主要用于传统经济管理,那是一般使用价值总量指标评价,如评价对象的重量、规模、速度等。
到了上世纪80年初,我国经济体制改革,为适应经济管理发展的需要,综合指标评价也展开了大讨论。
到90年代后,综合评价全面拓展,应用到预警、综合国力、社会发展等多个领域,在研究方法上也有众多创新。
目前,综合评价法的步骤主要有以下五个方面:
ⅰ.确定综合评价指标体系,这是综合评价的基础和依据。
ⅱ.收集数据,并对不同计量单位的指标数据进行同度量处理。
ⅲ.确定指标体系中各指标的权数,以保证评价的科学性。
ⅳ.对经过处理后的指标在进行汇总计算出综合评价指数或综合评价分值。
ⅴ.根据评价指数或分值对参评单位进行排序,并由此得出结论。
综合评价分析中指标得分的计算方法主要有打分综合法、打分排队法、综合指数法、功效系数法等。
15.1中国农民收入区域差异的因素分析
本案例首先对近年来我国农民收入变动趋势和收入结构变化进行分析,运用系统聚类法分析,对聚类结果中农村东、中、西部三大区域的代表省份分别运用逐步回归法进行回归,分析其影响农民收入的因素。
最后,针对如何缩小区域间农民收入差异给出了政策建议。
15.1.1案例引入和导读
中国自1978年实行改革开放政策以来,经济持续高速增长,创造了世界经济发展的奇迹,2006、2007年中国国内生产总值(GDP)的增速分别高达10.7%和11.4%。
经济高速增长的直接结果是中国城乡居民收入水平不断提高,居民总体生活质量不断提高,这从城乡居民恩格尔系数的持续下降可以得到印证。
但与经济高速增长相伴而生的是中国居民收入差距不断拉大,收入分配不公的问题越来越严重。
就世界各国通用的衡量收入分配差距程度的指标基尼系数来说,中国的基尼系数已经超过了国际上公认的警戒线,进入差距较大的范围,并且这种差距拉大的趋势还在继续,基尼系数直逼差距悬殊的界限。
这种状况引起了经济学者和政策制定者的高度关注,相关的研究文献提出了一些有针对性的解决措施。
中国政府相继实行的西部开发,振兴东北老工业基地,中部崛起等一系列政策,就是力图从地域层面解决经济发展中的差距过大问题。
整理已有的有关中国居民收入差距的研究文献,我们可以发现,目前积累的大量关于中国居民收入差距的研究文献针对城乡间的收入差距研究得比较充分,但是对于城镇内部和农村内部收入差距的研究文献相对比较少,尚有继续深入研究的必要。
我们知道,增加农民收入对解决好“三农”问题乃至对整个经济社会发展全局都有着极为重要的意义。
目前积累的关于中国农村居民收入差距的研究文献主要集中在以下两个方面:
一是对农村居民收入差距程度的实证测定,运用的指标多为农村居民收入基尼系数(如唐平,1995;李实等,1997;向书坚,2000;国家统计局农村调查队,2001;罗曰镁,2005),由于不同学者和研究机构运用的估算方法和使用的样本数据不同,各种估算结果之间存在一定的差异。
尽管如此,各种实证测定结果都表明改革开放以来中国农村居民收入差距拉大了,农村内部收入分配的不平等性不断加剧。
另一类研究文献探讨了农村居民收入差距的影响因素。
罗斯高(RozelleScott,1998)对江苏农村的实证研究表明,农村工业收入是农村中收入不平等的最大因素。
吕耀、王兆阳(2001)利用1982——1999年的统计数据对农村居民收入差距的影响因素进行了实证研究,用于检验的变量包括第二、第三产业占GDP比重和农业劳动力中从事非农业的人口比重。
结果表明第二、第三产业占GDP比重对农民收入总体基尼系数具有显著的影响,双对数模型的估计结果显示第二、第三产业占GDP比重每增长1%,农民收入总体基尼系数将扩大2.12%,而农业劳动力中从事非农业的人口比重对收入分配差距的影响较小。
董晓媛(2003)利用2000年在山东省和江苏省调查获取的小样本数据,分析了农村乡镇企业私有化对收入不平等的影响。
结果表明,乡镇企业私有化导致了在短短三年员工收入不平等程度的骤然上升。
股份所有权的不平等是导致收入不平等程度上升的主要原因,同时,教育回报的增加、对中年工人工作经验回报的增加、性别工资差距的扩大也是导致工人收入差距拉大的原因。
吕杰、张广胜(2005)利用基尼系数和泰尔指数两个指标测度了辽宁省农村居民收入不均等的总体状况,并对农村居民收入不均等进行了要素分解和地区分组分解。
结果表明辽宁省农村居民收入不均等状况并不严重,家庭经营收入不均等是导致辽宁省农村居民收入差距的主要原因,省内各地区之间的产业结构差距是导致省内不同地区之间收入差距的主要原因。
万广华、周章跃、陆迁(2005)利用农业部农村经济研究中心收集的1995——2002年广东、湖北、云南三个省的家庭水平的调查数据对农村收入不平等问题进行了实证研究,使用的研究方法是夏普里值方法和回归解析技术。
研究结果表明,地理因素是导致收入不平等的最主要因素,资本投入已成为影响中国农村收入不平等的最重要因素。
唯一的减少不平等的因素是土地,但它的影响是最小的。
在导致总的收入不平等的各种因素中,种植结构比劳动力及人力资本投入都更为关键。
教育对收入不平等的影响很小,但预计它的作用会有所增加。
从已有的研究文献我们发现,非农收入的增加及在居民间的不平等分布和资本投入因素对农村居民收入差距的显著影响已经被已有的实证研究所证实,这也是本案例的研究重点之一。
案例首先对近年来全国农村居民家庭人均纯收入的变化趋势以及结构变动进行统计分析,并根据农村居民收入水平对全国各省份直辖市进行聚类,最后对聚类结果中各分类选择代表省份进行实证分析,研究影响其农村居民收入的影响因素。
15.1.2案例分析和统计思考
Ø本案例的分析目的
由于我国幅员辽阔,各省、市、自治区之间的资源禀赋和经济发展水平不同,农村居民人均纯收入地区差异较为明显。
为了更好地分析各地区农村居民人均纯收入及其影响因素的不同,利用聚类分析对全国31个省、市、自治区进行分类,在此基础上做进一步的分析,找出不同地区之间影响农村居民人均纯收入的因素。
Ø本案例的数据来源
本案例的数据来源主要有两个方面,一是《中国统计年鉴》,主要获取全国各省市农村经济和农村村收入数据,主要用于分析农村人均纯收入的变化情况和对省市进行分类;二是三个代表省的年鉴资料和统计公报,《福建统计年鉴》、《湖南统计年鉴》、《湖南统计公报》、《四川统计年鉴》,获取各省农村的具体指标数据,主要用于对各省农村人均纯收入的影响因素进行逐步回归拟合并比较其不同。
本例中有5个数据文件,其中15-1-1.sav是全国历年农村家庭人均纯收入数据,15-1-2.sav是2006年全国各省市区农业经济数据,15-1-3.sav至15-1-5.sav是三个代表省市农业数据。
Ø本案例的解决思路和方法
本案例的整体解决思路是:
首先,分析全国农村居民家庭收入的变动趋势,运用回归分析和简单图表分析了解农村居民家庭收入的增长情况。
第二,分析我国农村人均纯收入及影响因素,运用因子分析提取变量中的主要因素,在对因子得分进行聚类分析,将我国各省市农村进行分类,并比较各类的差异。
第三,对每一类的农村,分别找出一个具有代表性的省份,运用逐步回归分析说明各类别的农村中各影响因素对农村人均纯收入的影响程度的差异。
本案例中涉及的统计分析方法和模型主要有回归分析、系统聚类分析、因子分析、方差分析等,下面重点介绍分析流程如下:
系统聚类理论
系统聚类法(HierarchicalClusteringMethod)是聚类分析诸方法中应用最多的一类方法,其基本思想是:
开始将n个样本各自作为一类,并规定样本之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其他类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样本合并为一类。
影响农村居民家庭人均纯收入的因素很多,如耕地面积、化肥施用量、农民受教育年限、财政投入、财政补贴、地区生产总值等等。
经过初步筛选和试算,本案例选择了人均GDP、城市化水平、人均第二产业增加值、人均第三产业增加值、农业总产值、农村人均家庭纯收入、农业机械总动力和农业投入等8项指标。
由于用来聚类的指标较多,直接聚类效果较差,本案例利用了因子聚类方法,基本思想是对上面选取的指标进行因子分析,利用各地区的因子得分进行系统聚类。
这样有利于减少聚类的变量个数,降低聚类分析的难度,并消除变量之间的相关性,获取更好的聚类效果。
可以看出在本案例中,因子分析只是作为一个中间的步骤,是为聚类分析服务的,因子分析的结果:
因子得分将成为聚类分析的聚类变量。
回归分析
回归分析主要用于解决两个问题,第一是农村居民家庭人均收入的趋势分析,用于说明农村居民家庭收入增长与时间的关系。
第二是运用逐步回归找出影响农村人均纯收入的关键因素,并比较它们在东部、中部、西部省份的影响有哪些差异。
15.1.3案例统计分析实现
本案例主要涉及的SPSS软件操作有一元回归分析,因子分析,系统聚类分析和逐步回归分析,下面我们分别简要说明其操作要领,读者应结合后面的结果,自行验证所有操作。
一元回归分析:
一元回归主要解决人均纯收入增长和时间的关系,打开数据15-1-1.sav,操作要点如下:
【Analysis】菜单→【Regression】菜单→【Linear】菜单,在图15-1对话框如下设置:
人均纯收入的对数值(lnY)→Dependent:
年份(year)→Independent(s):
其它设置选用默认设置
单击
按钮完成操作。
图15-1一元回归示意图
因子分析:
因子分析的作用是提取各省市变量中的共有信息形成因子,为下一步的聚类分析提供聚类变量,为此打开数据文件15-1-2.sav,操作要点如下:
【Analysis】菜单→【DimensionReduction】菜单→【Factor】菜单,在图15-2对话框如下设置:
人均国内生产总值(GDP)-农业投入→Variables;
点击
按钮,在因子得分计算方法选项选择“Regression”,表示用回归法计算因子得分
点击
按钮,在因子旋转方法中选择“Varimax”,选择方差最大化旋转
其余选择默认选项
单击
按钮完成操作。
图15-2因子分析示意图
聚类分析:
聚类分析是应用前面因子分析得出的因子得分变量,对全国31个省市自治区进行聚类,这里采用系统聚类,数据仍然是15-1-2.sav,操作要点如下:
【Analysis】菜单→【Classify】菜单→【HierarchicalCluster】菜单,在图15-3对话框如下设置:
因子得分1-因子得分2→Variables;,省市名称→LabelCasesby:
点击
按钮,选择Dendrogram选项,要求输出系统聚类图
点击
按钮,选择“Singlesolution”单选框,并在后面文本框中填写3,保存省市分为3类的分类结果
点击
按钮,在“TransformValues”区域的Standardized下拉菜单中选择“ZScore”,表示用标准化变量来计算距离
其余选择默认选项
单击
按钮完成操作。
图15-3系统聚类分析示意图
单因素方差分析:
单因素方差分析在本例中,主要是用于比较各省市农村居民家庭人均纯收入的取值在东部、中部、西部三个分类上是否显著差异,分析数据仍然是15-1-2.sav,操作要点如下:
【Analysis】菜单→【CompareMeans】菜单→【One-WayANOVA】菜单,在图15-4对话框中如下设置:
农村居民家庭人均纯收入→IndependentList;,聚类分析的结果变量Averagelinkage→Factor
点击
按钮,在EqualVarianceAssumed框中选择“LSD”表示用LSD方法检验两类间差异是否显著
单击
按钮完成操作。
图15-4单因素方差分析示意图
逐步回归分析:
逐步回归分析主要针对福建、湖南和四川三个代表省的数据,分析三个省中影响农村人均纯收入的变量,已经这些变量的影响在三个省份中是否有不同,这里以数据15-1-3.sav为例说明操作要点,
【Analysis】菜单→【Regression】菜单→【Linear】菜单,在图15-5对话框如下设置:
农村人均纯收入的对数(lnx1)→Independent;,人均国内生产总值对数(lnx2)-农业总投资的对数(lnx4)→Independent(s):
在Method下拉菜单中选择“Stepwise”逐步回归
单击
按钮完成操作。
图15-5逐步回归示意图
15.1.4结果解释和研究展望
一、农村居民家庭人均纯收入分析
1.农村居民家庭人均纯收入趋势分析
我国改革开放30年来,经济迅速发展,人民生活水平大幅度提升,农村居民的收入水平也不断提升。
农村居民家庭人均纯收入由1978年的133.57元提高到2007年的4140元,2007年比1978年增长近30倍,年均增长速度为12.56%;扣除价格因素,2007年比1978年增长6.3倍,年均增长7.1%,农村居民拥有的财富呈现快速增长趋势。
这里主要研究农村居民家庭人均纯收入与时间的变化关系。
从图14-6可以看出,农村居民家庭人均纯收入(Y)与时间t的呈现指数变化。
根据散点图的特点,建立Y与t的指数模型:
两边取对数得:
图15-61978年—2007年全国农村居民家庭人均纯收入分布图
利用1978年—2007年的全国农村家庭人均纯收入的对数值对年份回归,其中1978年取值为1,2007年取值为30。
在SPSS中进行回归分析,得到如下结果:
表15-1ModelSummary(b)
Model
R
RSquare
AdjustedRSquare
Std.ErroroftheEstimate
1
.986(a)
.973
.972
.17378
aPredictors:
(Constant)bDependentVariable:
农村家庭人均纯收入
表15-2人均纯收入—年度回归系数表
Model
UnstandardizedCoefficients
StandardizedCoefficients
t
Sig.
B
Std.Error
Beta
1
(Constant)
4.986
.065
76.631
.000
时间
.117
.004
.987
31.881
.000
判定系数
,说明年份解释农村居民家庭人均纯收入总变异的98.6%。
在5%的显著性水平下,回归系数通过t检验,p值非常小,趋近于0。
说明回归效果较好,得到如下回归方程:
进一步得到农村居民家庭人均纯收入与年份的函数关系:
从全国农村居民家庭人均纯收入与年份的函数中可以看出,我国农村居民家庭人均纯收入以年均12.4%的增长速度不断增加,反映出我国农村居民家庭人均纯收入增长速度较快。
2.农村居民家庭人均纯收入结构变化分析
在进行结构变化分析时,我们利用国家统计年鉴1988年—2007年农村居民家庭人均纯收入构成数据进行分析。
农村居民家庭人均纯收入由四部分组成,分别是工资性收入、家庭经营纯收入、财产性收入和转移性收入。
从1988年—2007年农村居民人均纯收入结构比例表中可以看出,工资性收入的比重从1990年的20.22%上升到2007年的38.56%,上升了18.34个百分点;家庭经营纯收入的比重从1990年的75.56%下降到2007年的52.99%,下降了22.9个百分点;财产性收入的比重从1993年的0.76%上升到2007年的3.1%,提升了2.34个百分点;转移性收入从1993年4.5%上升到2007年的5.37%,变化幅度不大,相对比较平稳。
同时,从农村居民家庭人均纯收入结构分布图看出,工资性收入比重在过去20年内呈现较为平稳的上升趋势,所占比例越来越高;与此同时,家庭经营纯收入的比重呈现明显的下降趋势,虽然仍占绝对比重,但比例明显下降;财产性收入和转移性收入的比重较小,且变化比较平稳,没有明显的上升或下降趋势。
从分析看,近20年来,农村居民家庭人均纯收入的构成发生了明显的变化,工资性收入和财产性收入的比重不断增大,尤其是工资性收入已经成为农民收入的主要来源之一,相比较家庭经营纯收入所占比重相对下降。
图15-7农村居民家庭人均纯收入构成折线图
二、我国各地区农村居民人均纯收入及影响因素的地区分析
由于我国幅员辽阔,各省、市、自治区之间的资源禀赋和经济发展水平不同,农村居民人均纯收入地区差异较为明显。
为了更好地分析各地区农村居民人均纯收入及其影响因素的不同,利用聚类分析对全国31个省、市、自治区进行分类,在此基础上做进一步的分析,找出不同地区之间影响农村居民人均纯收入的因素。
1.因子分析及结果
因子分析法(FactorAnalysis)就是寻找这些公共因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变量,以此考察原变量间的联系与区别。
它是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。
表15-3是KMO检验及巴特莱特球形检验结果。
在因子分析中读者注意选择KMOandBartlett'stestofsphericity检验统计量,得到如下结果:
表15-3KMOandBartlett'sTest
Kaiser-Meyer-OlkinMeasureofSamplingAdequacy.
.654
Bartlett'sTestofSphericity
Approx.Chi-Square
389.459
df
28
Sig.
.000
由表15-3可以看出,KMO检验值为0.654,说明原始变量有相关性,而巴特莱特球形检验的P值为0,拒绝原假设,通过检验,也说明原始变量之间有较强的相关性。
比较适合做因子分析。
表15-4给出因子分析各因子的贡献率和所有因子的累积贡献率
表15-4TotalVarianceExplained
Component
InitialEigenvalues
ExtractionSumsofSquaredLoadings
RotationSumsofSquaredLoadings
Total
%ofVariance
Cumulative%
Total
%ofVariance
Cumulative%
Total
%ofVariance
Cumulative%
1
4.691
58.637
58.637
4.691
58.637
58.637
4.691
58.634
58.634
2
2.451
30.643
89.279
2.451
30.643
89.279
2.452
30.645
89.279
3
.406
5.072
94.352
4
.216
2.703
97.055
5
.133
1.668
98.723
6
.059
.742
99.465
7
.042
.519
99.984
8
.001
.016
100.000
表15-4给出了因子分析各阶段的特征根及方差贡献率,共有两个因子的特征根大于1,应提取相应的两个公因子。
同时可以看出,前两个因子已经可以解释原始变量89.279%的方差,已经包含了大部分的信息。
表15-5RotatedComponentMatrix(a)
Component
1
2
人均GDP
.995
.004
农村人均家庭纯收入
.973
.103
城市化水平
.955
-.133
人均第二产业增加值
.939
-.127
人均第三产业增加值
.925
.127
农业总产值
-.078
.960
农业机械总动力
-.168
.863
农业投入
.263
.850
表15-5为旋转后的因子载荷阵,从表中可以看出,经过旋转后的载荷系数已经明显两极分化了,第一个公因子在人均GDP、农村人均家庭纯收入、城市化水平、人均第二产业增加值、人均第二产业增加值这几个指标上有较大载荷,说明这几个指标有较强的相关性,可以归为一类,命名为“经济因子”;第二个公因子在农业总产值、农业机械总动力和农业投入这几个指标上有较大载荷,同样可以归为一类,命名为“农业因子”。
同时在数据文件中生成了这两个因子得分变量。
计算因子得分。
因子得分就是观测量的共性因子的值。
给出了因子得分系数矩阵,根据表中的因子得分系数和原始变量的标准化值可以计算每个观测值的各因子的得分。
表15-6因子得分系数矩阵
Component
1
2
人均GDP
.212
.004
城市化水平
.203
-.053
农业机械总动力
-.034
.352
农村居民家庭人均纯收入
.208
.044
人均二产
.198
.053
人均三产
.200
-.050
农业总产值
-.015
.392
农业投入
.058
.347
本案例利用SPSS中的,在Fa