多元统计方法在城镇居民家庭收支评价中的应用.docx-资源下载

多元统计方法在城镇居民家庭收支评价中的应用.docx

1、多元统计方法在城镇居民家庭收支评价中的应用数据分析课程设计-多元统计方法在城镇居民家庭收支评价中的应用目录一、引言 11.1研究问题的背景及意义 11.2数据的来源 2二、多元统计分析方法的简单介绍 22.1聚类分析-系统聚类法 22.1.1系统聚类的基本思想 22.1.2系统聚类过程 22.2主成分分析 22.2.1主成分分析的思想 22.2.2主成分分析的几何意义 3三、我国各地区城镇居民每人每年平均收入的多元统计分析 43.1系统聚类分析 43.2主成分分析 73.3收入的综合分析 9四、我国各地区城镇居民家庭平均每人全年消费性支出的多元统计分析 104.1系统聚类分析 104.2主成分

2、分析 13五、结论及建议 16多元统计方法在城镇居民家庭收支评价中的应用一、引言1.1研究问题的背景及意义我国是世界上人口最多的国家，经济发展速度很快，城镇居民的收入与支出也逐步增加，在全面建设和谐社会的环境下，如何做好城镇居民的收入与支出的关系就显得就相当的重要，合理的分配收入可以缓解当今严重的贫富差距，适当的消费支出可以带动经济的快速稳定和谐发展，通过分析我国各省市城镇居民的收入与支出关系，了解各省市的经济发展与收入消费的状况，让国家及各省市政府采取相应的措施，让社会的收入与支出更加的和谐。进入二十世纪，各种收入与消费的相关性问题愈发显现在市场经济的条件下，收入是决定居民消费的最主要因素，

3、城镇居民的消费性支出与其收入间有着内在的相关性收入分配差距拉大，会直接影响到居民消费需求的降低因此，我们国家必须解决收入与消费的合理性问题，否则将会出现严重的社会问题。经济学研究长期的经验事实表明，各个国家中，低收入者的收入主要来自工资收入，高收入者的收入主要是利息和利润收入。当经济发展处于上升阶段时，投资以累积的比率扩大，一方面会使利润增加，另一方面也会转化为资本存量，使得利息提高，结果是利息利润收入迅速上升，工资收入虽然也有所增长，但速度缓慢，造成工资与利润利息收入比例的下降这样，工资收入在总收入中的比重下降，非工资收入比重上升。穷者相对越穷，富者相对越富。尽管穷者有较高的消费倾向，但总体

4、收入增长的缓慢限制了消费总量，而富者储蓄倾向却随着收入上升不断提高，因此，全社会的消费倾向有下降的势，有效需求不足开始出现。从我国情况来看，进入二十一世纪以来，在国民经济迅速增长和居民收入水平大幅度提高的同时，居民收入分配差距也在不断拉大。尽管我们了解到了收入与消费之间存在着密切复杂的联系，但是，解决问题的关键在于理清楚这些联系，分清主次而市场经济运行模式的复杂性又是众所周知的，仅仅从社会经济学的角度出发进行定性分析是远远不够的，尤其是要做出预见性的结论，必须依靠对现实复杂数据的严密分析，找出量化的关系。本文就是在此基础之上，利用统计学的数学工具对历年我国各省市的城镇居民收入与消费数据进行多元

5、统计分析，找出问题的主要影响因素，各因素之间的相关程度，以及各省市的发展状况。1.2数据的来源本文主要应用多元统计学中的相关理论对数据作探索性和预测性分析论文中的数据主要来源于中华人民共和国国家统计局的中国统计年鉴(2001-2011)。我们主要参考了20002010年的中国各地区城镇居民平均每人全年家庭收入来源统计与中国各地区城镇居民家庭平均每人全年消费性支出统计，其中，城镇居民收入的统计数据主要采用了全国30个省、市、自治区(不包括港澳台地区)的数据；城镇居民消费支出的统计数据也主要采用了全国30个省、市、自治区(不包括港澳台地区)的数据。在做多元统计分析时，采用20002010年这11年

6、数据的均值来做分析，在分析收入与消费支出的相关性的过程中，采用了两部分共有省、市、自治区的数据二、多元统计分析方法的简单介绍2.1聚类分析-系统聚类法2.1.1系统聚类的基本思想根据距离相近的样品（或变量）先聚成类，距离相远的后聚成类，过程一直进行下去，每个样品（或变量）总能聚到合适的类中。2.1.2系统聚类过程假设总共有n个样品（或变量），第一步将每个样品（或变量）独自聚成一类，共有n类；第二步根据所确定的样品（或变量）“距离”公式，把距离较近的两个样品（或变量）聚合为一类，其它的样品（或变量）仍各自聚为一类，共聚成n 1类；第三步将“距离”最近的两个类进一步聚成一类，共聚成n 2类；，以上

7、步骤一直进行下去，最后将所有的样品（或变量）全聚成一类。为了直观地反映以上的系统聚类过程，可以把整个分类系统画成一张谱系图。所以有时系统聚类也称为谱系分析。2.2主成分分析2.2.1主成分分析的思想主成分分析也称主分量分析，是由Hotelling于1933年首先提出的。由于多个变量之间往往存在着一定程度的相关性。人们自然希望通过线性组合的方式，从这些指标中尽可能快地提取信息。当第一个线性组合不能提取更多的信息时，再考虑用第二个线性组合继续这个快速提取的过程，直到所提取的信息与原指标相差不多时为止。这就是主成分分析的思想。一般说来，在主成分分析适用的场合，用较少的主成分就可以得到较多的信息量。以

8、各个主成分为分量，就得到一个更低维的随机向量；因此，通过主成分既可以降低数据“维数”又保留了原数据的大部分信息。2.2.2主成分分析的几何意义主成分分析数学模型中的正交变换，在几何上就是作一个坐标旋转。因此，主成分分析在二维空间中有明显的几何意义。假设共有n个样品，每个样品都测量了两个指标（X1，X2），它们大致分布在一个椭圆内如图1所示。事实上，散点的分布总有可能沿着某一个方向略显扩张，这个方向就把它看作椭圆的长轴方向。显然，在坐标系x1Ox2中，单独看这n个点的分量X1和X2，它们沿着x1方向和x2方向都具有较大的离散性，其离散的程度可以分别用的X1方差和X2的方差测定。如果仅考虑X1或X

9、2中的任何一个分量，那么包含在另一分量中的信息将会损失，因此，直接舍弃某个分量不是“降维”的有效办法。图1如果我们将该坐标系按逆时针方向旋转某个角度变成新坐标系，这里是椭圆的长轴方向，是椭圆的短轴方向。旋转公式为我们看到新变量和是原变量和的线性组合，它的矩阵表示形式为：其中，为旋转变换矩阵，它是正交矩阵，即有或。三、我国各地区城镇居民每人每年平均收入的多元统计分析3.1系统聚类分析首先，我们对得到的数据进行取均值，得到我国城镇居民家庭每人年收入的均值数据(如下表所示)我国各地区城镇居民平均每人全年家庭收入来源（2000-2010）单位：元地区可支配收入总收入工薪收入经营净收入财产性

10、收入转移性收入北京19160.3 21238.9 14387.3 489.9 494.9 5128.3 天津14727.5 15896.5 9458.1 625.0 266.4 4793.0 河北10236.1 10769.5 6837.5 625.9 147.1 2757.0 山西9829.3 10457.3 7132.1 506.9 181.2 2291.4 内蒙古10565.3 11106.7 7520.1 979.0 211.1 2014.7 辽宁10604.7 11587.5 6891.7 826.5 171.5 3237.5 吉林9699.5 10245.1 6502

11、.0 785.0 98.8 2480.1 黑龙江9019.2 9555.5 5801.6 804.3 79.2 2406.5 上海20643.8 22707.9 15467.1 884.8 540.2 4709.8 江苏13887.6 14946.9 8904.8 1331.7 287.4 3885.5 浙江17729.9 19270.2 11887.1 2053.9 995.6 3588.4 安徽9783.1 10593.3 6964.2 684.2 231.8 2314.9 福建13782.0 14982.7 9703.7 1134.5 657.8 2955.1 江西9706.

12、2 10181.5 6873.9 652.3 139.8 2215.5 山东12269.3 13172.7 9930.1 763.3 271.0 1990.0 河南9815.3 10342.0 6628.7 726.8 123.6 2510.5 湖北10037.8 10745.6 7390.7 625.5 181.1 2245.4 湖南10708.4 11299.2 7408.6 929.0 275.3 2380.8 广东15987.5 17507.9 12318.4 1414.0 674.4 2529.5 广西10702.2 11522.0 7811.8 748.7 274.3

13、2345.0 海南9664.8 10305.2 6843.5 737.5 275.5 2070.5 重庆11236.4 11990.2 8383.1 583.5 188.9 2469.3 四川9777.5 10535.0 6821.4 653.2 245.6 2363.5 贵州9117.6 9487.8 6277.4 686.4 100.2 2089.2 云南10420.7 11138.5 7052.2 676.6 498.4 2554.6 西藏10367.7 11280.0 10192.9 268.2 113.2 620.7 陕西9589.2 10256.6 7143.4 30

14、4.9 127.6 2299.7 甘肃8744.1 9356.0 6748.4 424.3 50.5 1852.6 青海9061.0 9851.7 6403.5 494.4 50.6 2497.3 宁夏9463.6 10301.6 6510.7 1047.0 142.0 2234.5 新疆9122.5 9940.0 7511.4 559.4 81.7 1452.2 利用SPSS的系统聚类法得到分析结构如下群集成员1: 北京1112: 天津2213: 河北3324: 山西3325: 内蒙古3326: 辽宁3327: 吉林3328: 黑龙江3329: 上海11110: 江苏

15、22111: 浙江42112: 安徽33213: 福建22114: 江西33215: 山东33216: 河南33217: 湖北33218: 湖南33219: 广东42120: 广西33221: 海南33222: 重庆33223: 四川33224: 贵州33225: 云南33226: 西藏33227: 陕西33228: 甘肃33229: 青海33230: 宁夏33231: 新疆332* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S

16、 I S * * * * * * * * * * * * * * * * * * * Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +-+-+-+-+-+ 安徽 12 -+ 四川 23 -+ 山西 4 -+ 江西 14 -+ 海南 21 -+ 陕西 27 -+ 吉林 7 -+ 河南 16 -+ 宁夏 30 -+ 河北 3 -+ 云南 25 -+ 湖北 17 -+ 新疆 31 -+

17、黑龙江 8 -+ 贵州 24 -+ 青海 29 -+ 甘肃 28 -+-+ 内蒙古 5 -+ | 湖南 18 -+ | 广西 20 -+ +-+ 辽宁 6 -+ | | 重庆 22 -+ | | 山东 15 -+-+ | 西藏 26 -+ | 北京 1 -+-+ | 上海 9 -+ | | 江苏 10 -+ +-+ 福建 13 -+-+ | 天津 2 -+ +-+ 浙江 11 -+-+ 广东 19 -+由聚类分析表可知，把各地区城镇居民的收入聚成四类，分别为高收入地区：北京和上海较高收入地区：广东和浙江中等收入区：天津、江苏和福建低收入区：其余的省市地区

18、3.2主成分分析Total Variance ExplainedComponentInitial EigenvaluesExtraction Sums of Squared LoadingsTotal% of VarianceCumulative %Total% of VarianceCumulative %14.47674.59474.5944.47674.59474.5942.92615.42690.020.92615.42690.0203.4567.59297.6124.1422.36599.9785.001.01899.9956.000.005100.000Extraction Met

19、hod: Principal Component Analysis.Component MatrixaComponenta1a2可支配收入.985-.154总收入.983-.165工薪收入.905-.245经营净收入.607.755财产性收入.866.376转移性收入.775-.322Extraction Method: Principal Component Analysis.a. 2 components extracted.在第一主成分中，可支配收入、总收入、工薪收入、财产性收入和转移性收入相对应的载荷系数较高，说明第一主成分主要反应了上面五项指标的信息，我们称之为综合性因子；而在第二主

20、成分中，仅经营性收入的载荷较高，因此第二主成分主要体现了它的信息，我们称之为经营性因子从贡献率看，第一主成分的贡献率为74.594，而第一、二主成分的累积贡献率为90.020，由此可见，我们利用主成分分析的结果，用两个主成分变量即可较准确的反应全部指标的信息用主成分载荷矩阵中的数据除以主成分相对应的特征值开平方根便得到两个主成分中每个指标所对应的系数，形成特征向量，将得到的特征向量与标准化后的数据(ZXi)相乘,就可以得出主成分表达式。COMPUTEz1=a1/sqrt(4.476).EXECUTE.COMPUTEz2=a2/sqrt(0.926).EXECUTE. 特征向量矩阵z1z2可支配

21、收入X10.466 -0.160 总收入X20.465 -0.171 工薪收入X30.428 -0.255 经营净收入X40.287 0.785 财产性收入X50.409 0.391 转移性收入X60.366 -0.335 得到主成分表达式为F1=0.466ZX1+0.465ZX2+0.428ZX3+0.287ZX4+0.409ZX5+0.366ZX6F2=-0.160ZX1-0.171ZX2-0.255ZX3+0.785ZX4+0.391ZX5-0.335ZX6综合主成分得分表达式为算得F1、F2和综合得分及排名如下表所示地区F1得分与排名F2得分与排名综合得分与排名上海5.447649

22、12.79539514.9930051 浙江5.3052392-2.58192313.9532372 北京4.5939063-1.7326303.5094293 广东3.3476034-1.5651292.5054784 福建2.12461651.28940721.9814465 天津1.89551660.99863931.7417756 江苏1.8110817-0.86469281.3524057 山东0.28940680.91165840.3960718 湖南-0.34553100.7600665-0.156019 广西-0.40794120.5189877-0.2490

23、510 云南-0.188259-0.8518627-0.30211 辽宁-0.3640311-0.4508624-0.3789212 内蒙古-0.59541140.6305386-0.3852613 重庆-0.4135313-0.5262626-0.4328514 河北-0.93256150.32967110-0.7161915 安徽-0.96378160.4752348-0.7171116 湖北-1.00071180.16477712-0.8009217 四川-0.9780917-0.0799920-0.8241418 河南-1.14696210.470529-0.86969

24、19 宁夏-1.036520-0.3348423-0.9162220 海南-1.0092119-0.4925225-0.9206421 吉林-1.21092230.15342914-0.9770522 山西-1.1947322-0.3005622-1.0414623 江西-1.2848824-0.0114317-1.0665924 西藏-1.45299250.03353716-1.1981725 陕西-1.51829260.15770813-1.2309926 黑龙江-1.5783327-0.1062521-1.3259927 贵州-1.6669280.11469115-1.3

25、61528 青海-1.69764290.18574711-1.3747929 新疆-1.7720130-0.0435618-1.4757230 甘肃-2.0558131-0.0475719-1.7115731从表得分表中我们可以看出，第一主成分主要反映的是各地区的综合性收入水平，其中各地区的排名和综合主成分得分的结果基本相似，高收入省市主要有上海、浙江、北京、广东、福建和江苏，并且这六个省市的收入水平明显高于全国其它地区，而低收入的省份则主要集中在东北和西部地区，并且高收入与低收入地区的收入差异还是比较大的：第二主成分反映了各地区经营性收入水平的差异，经营性收入居前列的省份是上海、福建、

26、天津、山东和湖南由于经营性收入在总收入中所占的比重较小，所以第二主成分反映的情况对整体综合性收入的影响并不大。3.3收入的综合分析从各地区的城镇居民的收入统计分析结果我们不难看出，我国城镇居民收入水平与分配状况中存在着不少问题各地区城镇居民收入差距较大总结起来主要有以下几个特点：1) 、收入水平地区差异明显，传统格局没有明显的改变，东部和东南沿海地区的收入水平明显高于东北和西北地区：2）、高、中、低收入地区间的差异较大，两极分化的状况依然严峻，有日趋增大的趋势；3）、在收入结构方面，我国南方沿海各省市的收入结构较传统模式有了明显的改变，例如上海、福建等省，财产性收入水平提高很明显，居于我国前列；而北方各省，特别是东北地区的收入还是以工薪收入为主，收入结构变化不大；4)、从各省市本身的收入结构特性来看，不管是高收入地区还是低收入地区，各省市收入结构比例的差异显著，大部分地区收入分配结构失衡，例如北京、浙江、广东等地区，综合性收入水平居于前列，可经营性收入排名非常靠后由以上结论可以看出，我国各地区城镇居民家庭人均收入状况存在着明显的差异性和较为严重的比例失衡，这说明我国城镇居民收入水平的现状还存在着一定的不平衡;但值得肯定的是，我国低收入地区城镇居民的收入水平提高速度还是很快的，特别是西部地区，这说明我国在经济改革中的一些

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？