统计学课程论文曹辉.docx

资源描述

统计学课程论文曹辉.docx

《统计学课程论文曹辉.docx》由会员分享，可在线阅读，更多相关《统计学课程论文曹辉.docx（30页珍藏版）》请在冰豆网上搜索。

统计学课程论文曹辉.docx

统计学课程论文曹辉

天津农学院

课程论文

（2012—2013学年第一学期）

题目：

二十一世纪的中国城镇居民收入与支出的多元统计分析报告

课程名称统计学

任课教师邸娜

学生姓名曹辉

学号1008044219

系别计算机科学与信息工程系

专业班级2010级信息管理专业2班

成绩评定

1、引言1

1.1研究问题的背景及意义2

1.2数据的来源2

2、多元统计分析方法的简单介绍2

2.1聚类分析---系统聚类法2

2.1.1系统聚类的基本思想2

2.1.2系统聚类过程2

2.2主成分分析2

2.2.1主成分分析的思想2

2.2.2主成分分析的几何意义3

3、我国各地区城镇居民每人每年平均收入的多元统计分析4

3.1系统聚类分析4

3.2主成分分析7

3.3收入的综合分析10

4、我国各地区城镇居民家庭平均每人全年消费性支出的多元统计分析11

4.1系统聚类分析11

4.2主成分分析15

5、结论及建议19

一引言

1.1研究问题的背景及意义

我国是世界上人口最多的国家，经济发展速度很快，城镇居民的收入与支出也逐步增加，在全面建设和谐社会的环境下，如何做好城镇居民的收入与支出的关系就显得就相当的重要，合理的分配收入可以缓解当今严重的贫富差距，适当的消费支出可以带动经济的快速稳定和谐发展，通过分析我国各省市城镇居民的收入与支出关系，了解各省市的经济发展与收入消费的状况，让国家及各省市政府采取相应的措施，让社会的收入与支出更加的和谐。

进入二十世纪，各种收入与消费的相关性问题愈发显现．在市场经济的条件下，收入是决定居民消费的最主要因素，城镇居民的消费性支出与其收入间有着内在的相关性．收入分配差距拉大，会直接影响到居民消费需求的降低．因此，我们国家必须解决收入与消费的合理性问题，否则将会出现严重的社会问题。

经济学研究长期的经验事实表明，各个国家中，低收入者的收入主要来自工资收入，高收入者的收入主要是利息和利润收入。

当经济发展处于上升阶段时，投资以累积的比率扩大，一方面会使利润增加，另一方面也会转化为资本存量，使得利息提高，结果是利息利润收入迅速上升，工资收入虽然也有所增长，但速度缓慢，造成工资与利润利息收入比例的下降．这样，工资收入在总收入中的比重下降，非工资收入比重上升。

穷者相对越穷，富者相对越富。

尽管穷者有较高的消费倾向，但总体收入增长的缓慢限制了消费总量，而富者储蓄倾向却随着收入上升不断提高，因此，全社会的消费倾向有下降的势，有效需求不足开始出现。

从我国情况来看，进入二十一世纪以来，在国民经济迅速增长和居民收入水平大幅度提高的同时，居民收入分配差距也在不断拉大。

尽管我们了解到了收入与消费之间存在着密切复杂的联系，但是，解决问题的关键在于理清楚这些联系，分清主次．而市场经济运行模式的复杂性又是众所周知的，仅仅从社会经济学的角度出发进行定性分析是远远不够的，尤其是要做出预见性的结论，必须依靠对现实复杂数据的严密分析，找出量化的关系。

本文就是在此基础之上，利用统计学的数学工具对历年我国各省市的城镇居民收入与消费数据进行多元统计分析，找出问题的主要影响因素，各因素之间的相关程度，以及各省市的发展状况。

1.2数据的来源

本文主要应用多元统计学中的相关理论对数据作探索性和预测性分析．论文中的数据主要来源于中华人民共和国国家统计局（

二、多元统计分析方法的简单介绍

2.1聚类分析---系统聚类法

第一系统聚类的基本思想

根据距离相近的样品（或变量）先聚成类，距离相远的后聚成类，过程一直进行下去，每个样品（或变量）总能聚到合适的类中。

第二系统聚类过程

假设总共有n个样品（或变量），第一步将每个样品（或变量）独自聚成一类，共有n类；第二步根据所确定的样品（或变量）“距离”公式，把距离较近的两个样品（或变量）聚合为一类，其它的样品（或变量）仍各自聚为一类，共聚成n1类；第三步将“距离”最近的两个类进一步聚成一类，共聚成n2类；……，以上步骤一直进行下去，最后将所有的样品（或变量）全聚成一类。

为了直观地反映以上的系统聚类过程，可以把整个分类系统画成一张谱系图。

所以有时系统聚类也称为谱系分析。

2.2主成分分析

第一主成分分析的思想

主成分分析也称主分量分析，是由Hotelling于1933年首先提出的。

由于多个变量之间往往存在着一定程度的相关性。

人们自然希望通过线性组合的方式，从这些指标中尽可能快地提取信息。

当第一个线性组合不能提取更多的信息时，再考虑用第二个线性组合继续这个快速提取的过程，……，直到所提取的信息与原指标相差不多时为止。

这就是主成分分析的思想。

一般说来，在主成分分析适用的场合，用较少的主成分就可以得到较多的信息量。

以各个主成分为分量，就得到一个更低维的随机向量；因此，通过主成分既可以降低数据“维数”又保留了原数据的大部分信息。

第二主成分分析的几何意义

主成分分析数学模型中的正交变换，在几何上就是作一个坐标旋转。

因此，主成分分析在二维空间中有明显的几何意义。

假设共有n个样品，每个样品都测量了两个指标（X1，X2），它们大致分布在一个椭圆内如图1所示。

事实上，散点的分布总有可能沿着某一个方向略显扩张，这个方向就把它看作椭圆的长轴方向。

显然，在坐标系x1Ox2中，单独看这n个点的分量X1和X2，它们沿着x1方向和x2方向都具有较大的离散性，其离散的程度可以分别用的X1方差和X2的方差测定。

如果仅考虑X1或X2中的任何一个分量，那么包含在另一分量中的信息将会损失，因此，直接舍弃某个分量不是“降维”的有效办法。

图1椭圆

如果我们将该坐标系按逆时针方向旋转某个角度

变成新坐标系

，这里

是椭圆的长轴方向，

是椭圆的短轴方向。

旋转公式为

我们看到新变量

和

是原变量

和

的线性组合，它的矩阵表示形式为：

其中，

为旋转变换矩阵，它是正交矩阵，即有

或

。

三、我国各地区城镇居民每人每年平均收入的多元统计分析

3.1系统聚类分析

首先，我们对得到的数据进行取均值（2000--2010），得到我国城镇居民家庭每人年收入的均值数据（如下表格1所示）

表1我国各地区城镇居民平均每人全年家庭收入来源（2000-2010）单位：

元

地区

可支配收入

总收入

工薪收入

经营净收入

财产性收入

转移性收入

北京

19160.3

21238.9

14387.3

489.9

494.9

5128.3

天津

14727.5

15896.5

9458.1

625.0

266.4

4793.0

河北

10236.1

10769.5

6837.5

625.9

147.1

2757.0

山西

9829.3

10457.3

7132.1

506.9

181.2

2291.4

内蒙古

10565.3

11106.7

7520.1

979.0

211.1

2014.7

辽宁

10604.7

11587.5

6891.7

826.5

171.5

3237.5

吉林

9699.5

10245.1

6502.0

785.0

98.8

2480.1

黑龙江

9019.2

9555.5

5801.6

804.3

79.2

2406.5

上海

20643.8

22707.9

15467.1

884.8

540.2

4709.8

江苏

13887.6

14946.9

8904.8

1331.7

287.4

3885.5

浙江

17729.9

19270.2

11887.1

2053.9

995.6

3588.4

安徽

9783.1

10593.3

6964.2

684.2

231.8

2314.9

福建

13782.0

14982.7

9703.7

1134.5

657.8

2955.1

江西

9706.2

10181.5

6873.9

652.3

139.8

2215.5

山东

12269.3

13172.7

9930.1

763.3

271.0

1990.0

河南

9815.3

10342.0

6628.7

726.8

123.6

2510.5

湖北

10037.8

10745.6

7390.7

625.5

181.1

2245.4

湖南

10708.4

11299.2

7408.6

929.0

275.3

2380.8

广东

15987.5

17507.9

12318.4

1414.0

674.4

2529.5

广西

10702.2

11522.0

7811.8

748.7

274.3

2345.0

海南

9664.8

10305.2

6843.5

737.5

275.5

2070.5

重庆

11236.4

11990.2

8383.1

583.5

188.9

2469.3

四川

9777.5

10535.0

6821.4

653.2

245.6

2363.5

贵州

9117.6

9487.8

6277.4

686.4

100.2

2089.2

云南

10420.7

11138.5

7052.2

676.6

498.4

2554.6

西藏

10367.7

11280.0

10192.9

268.2

113.2

620.7

陕西

9589.2

10256.6

7143.4

304.9

127.6

2299.7

甘肃

8744.1

9356.0

6748.4

424.3

50.5

1852.6

青海

9061.0

9851.7

6403.5

494.4

50.6

2497.3

宁夏

9463.6

10301.6

6510.7

1047.0

142.0

2234.5

新疆

9122.5

9940.0

7511.4

559.4

81.7

1452.2

表2利用SPSS的系统聚类法得到分析结构如下

群集成员

案例

4群集

3群集

2群集

北京

天津

河北

山西

内蒙古

辽宁

吉林

黑龙江

上海

10:

江苏

11:

浙江

12:

安徽

13:

福建

14:

江西

15:

山东

16:

河南

17:

湖北

18:

湖南

19:

广东

20:

广西

21:

海南

22:

重庆

23:

四川

24:

贵州

25:

云南

26:

西藏

27:

陕西

28:

甘肃

29:

青海

30:

宁夏

31:

新疆

DendrogramusingAverageLinkage（BetweenGroups）

系统树图使用平均连锁（团体之间）

RescaledDistanceClusterCombine

新距离集群结合

CASE0510152025

LabelNum+---------+---------+---------+---------+---------+

安徽12-+

四川23-+

山西4-+

江西14-+

海南21-+

陕西27-+

吉林7-+

河南16-+

宁夏30-+

河北3-+

云南25-+

湖北17-+

新疆31-+

黑龙江8-+

贵州24-+

青海29-+

甘肃28-+-----+

内蒙古5-+|

湖南18-+|

广西20-++-----------------------------------------+

辽宁6-+||

重庆22-+||

山东15---+---+|

西藏26---+|

北京1---+-------------------------+|

上海9---+||

江苏10-++-------------------+

福建13-+---------+|

天津2-++-----------------+

浙江11---+-------+

广东19---+

由聚类分析表可知，把各地区城镇居民的收入聚成四类，分别为

◆高收入地区：

北京和上海

◆较高收入地区：

广东和浙江

◆中等收入区：

天津、江苏和福建

◆低收入区：

其余的省市地区

3.2主成分分析

表3TotalVarianceExplained

Component

InitialEigenvalues（初始特征值）

ExtractionSumsofSquaredLoadings

Total

%ofVariance（方差）

Cumulative%

（累积）

Total

（）总

%ofVariance

Cumulative%

4.476

74.594

4.476

74.594

.926

15.426

90.020

.926

15.426

90.020

.456

7.592

97.612

.142

2.365

99.978

.001

.018

99.995

.000

.005

100.000

表4ComponentMatrixa分量矩阵

Component

可支配收入

.985

-.154

总收入

.983

-.165

工薪收入

.905

-.245

经营净收入

.607

.755

财产性收入

.866

.376

转移性收入

.775

-.322

提取方法:

主成分分析

在第一主成分中，可支配收入、总收入、工薪收入、财产性收入和转移性收入相对应的载荷系数较高，说明第一主成分主要反应了上面五项指标的信息，我们称之为综合性因子；而在第二主成分中，仅经营性收入的载荷较高，因此第二主成分主要体现了它的信息，我们称之为经营性因子．从贡献率看，第一主成分的贡献率为74.594％，而第一、二主成分的累积贡献率为90.020％，由此可见，我们利用主成分分析的结果，用两个主成分变量即可较准确的反应全部指标的信息．

用主成分载荷矩阵中的数据除以主成分相对应的特征值开平方根便得到两个主成分中每个指标所对应的系数，形成特征向量，将得到的特征向量与标准化后的数据（ZXi）相乘,就可以得出主成分表达式。

COMPUTE z1=a1/sqrt（4.476）.

EXECUTE.

COMPUTE z2=a2/sqrt（0.926）.

EXECUTE.

表5特征向量矩阵

可支配收入X1

0.466

-0.160

总收入X2

0.465

-0.171

工薪收入X3

0.428

-0.255

经营净收入X4

0.287

0.785

财产性收入X5

0.409

0.391

转移性收入X6

0.366

-0.335

得到主成分表达式为

F1=0.466ZX1+0.465ZX2+0.428ZX3+0.287ZX4+0.409ZX5+0.366ZX6

F2=-0.160ZX1-0.171ZX2-0.255ZX3+0.785ZX4+0.391ZX5-0.335ZX6

综合主成分得分表达式为

表格6算得F1、F2和综合得分及排名如下所示

地区

F1得分与排名

F2得分与排名

综合得分与排名

上海

5.447649

2.795395

4.993005

浙江

5.305239

-2.58192

3.953237

北京

4.593906

-1.7326

3.509429

广东

3.347603

-1.5651

2.505478

福建

2.124616

1.289407

1.981446

天津

1.895516

0.998639

1.741775

江苏

1.811081

-0.86469

1.352405

山东

0.289406

0.911658

0.396071

湖南

-0.34553

0.760066

-0.15601

广西

-0.40794

0.518987

-0.24905

云南

-0.18825

-0.85186

-0.302

辽宁

-0.36403

-0.45086

-0.37892

内蒙古

-0.59541

0.630538

-0.38526

重庆

-0.41353

-0.52626

-0.43285

河北

-0.93256

0.329671

-0.71619

安徽

-0.96378

0.475234

-0.71711

湖北

-1.00071

0.164777

-0.80092

四川

-0.97809

-0.07999

-0.82414

河南

-1.14696

0.47052

-0.86969

宁夏

-1.0365

-0.33484

-0.91622

海南

-1.00921

-0.49252

-0.92064

吉林

-1.21092

0.153429

-0.97705

山西

-1.19473

-0.30056

-1.04146

江西

-1.28488

-0.01143

-1.06659

西藏

-1.45299

0.033537

-1.19817

陕西

-1.51829

0.157708

-1.23099

黑龙江

-1.57833

-0.10625

-1.32599

贵州

-1.6669

0.114691

-1.3615

青海

-1.69764

0.185747

-1.37479

新疆

-1.77201

-0.04356

-1.47572

甘肃

-2.05581

-0.04757

-1.71157

从表得分表中我们可以看出，第一主成分主要反映的是各地区的综合性收入水平，其中各地区的排名和综合主成分得分的结果基本相似，高收入省市主要有上海、浙江、北京、广东、福建和江苏，并且这六个省市的收入水平明显高于全国其它地区，而低收入的省份则主要集中在东北和西部地区，并且高收入与低收入地区的收入差异还是比较大的：

第二主成分反映了各地区经营性收入水平的差异，经营性收入居前列的省份是上海、福建、天津、山东和湖南．由于经营性收入在总收入中所占的比重较小，所以第二主成分反映的情况对整体综合性收入的影响并不大。

3.3收入的综合分析

从各地区的城镇居民的收入统计分析结果我们不难看出，我国城镇居民收入水平与分配状况中存在着不少问题．各地区城镇居民收入差距较大．总结起来主要有以下几个特点：

第一、收入水平地区差异明显，传统格局没有明显的改变，东部和东南沿海地区的收入水平明显高于东北和西北地区：

第二、高、中、低收入地区间的差异较大，两极分化的状况依然严峻，有日趋增大的趋势；

第三、在收入结构方面，我国南方沿海各省市的收入结构较传统模式有了明显的

改变，例如上海、福建等省，财产性收入水平提高很明显，居于我国前列；而北方各省，特别是东北地区的收入还是以工薪收入为主，收入结构变化不大；

第四、从各省市本身的收入结构特性来看，不管是高收入地区还是低收入地区，各省市收入结构比例的差异显著，大部分地区收入分配结构失衡，例如北京、浙江、广东等地区，综合性收入水平居于前列，可经营性收入排名非常靠后．由以上结论可以看出，我国各地区城镇居民家庭人均收入状况存在着明显的差异性和较为严重的比例失衡，这说明我国城镇居民收入水平的现状还存在着一定的不平衡;但值得肯定的是，我国低收入地区城镇居民的收入水平提高速度还是很快的，特别是西部地区，这说明我国在经济改革中的一些政策和措施发挥了很大的用．而对于我

展开阅读全文