多元统计分析论文.docx

上传人:b****8 文档编号:23630433 上传时间:2023-05-19 格式:DOCX 页数:28 大小:248.75KB
下载 相关 举报
多元统计分析论文.docx_第1页
第1页 / 共28页
多元统计分析论文.docx_第2页
第2页 / 共28页
多元统计分析论文.docx_第3页
第3页 / 共28页
多元统计分析论文.docx_第4页
第4页 / 共28页
多元统计分析论文.docx_第5页
第5页 / 共28页
点击查看更多>>
下载资源
资源描述

多元统计分析论文.docx

《多元统计分析论文.docx》由会员分享,可在线阅读,更多相关《多元统计分析论文.docx(28页珍藏版)》请在冰豆网上搜索。

多元统计分析论文.docx

多元统计分析论文

 

关于城镇居民人均全年家庭收入来源的统计分析

 

作者:

某某

学院:

理学院

班级:

10统计一班

指导教师:

***

 

摘要:

为了了解我国城镇人均居民收入的基本情况和收入来源,我选取了人均可支配收入、总收入、工资性收入、经营净收入、财产性收入和转移性收入几个指标对这个问题进行分析。

本文首先采用聚类分析对各个省(市)的城镇居民人均收入进行了聚类,发现我国的各个省(市)之间的生活水平还是存在较大差异;然后用了判别分析对其中几个还没有分类的省(市)进行分类并对已经分好类的省(市)进行了一下判别,看一下我们第一步的分类是否合理;接着做了因子分析,分析了一下几个收入变量之间的关系,找出了两个可以代表全局的变量;最后在因子分析的基础上对数据做了一个相应分析,观察了两个因子之间的关系。

结果表明,各地区的经济发展不太平衡,人民生活水平差距较大,我们政府应采取一定的措施来带动相对落后的地区发展起来,实现共同富裕。

关键词:

城镇居民人均收入、聚类分析、判别分析、因子分析、相应分析、生活水平

正文:

序言:

近年以来,全国上下认真贯彻落实科学发展观,以农业增产、农民增收为目的,加大各项惠农政策措施落实力度,多措并举做好农村劳动力转移就业工作,克服金融危机和严重干旱等自然灾害带来的不利影响,使全市农村经济保持了稳定发展的良好态势,农民现金收入持续增长,生活消费水平继续提高。

我国是一个农业大国,至今仍有9亿农村人口,占全国人口总数的70%,农民是我国最大的群体,农村消费能力的提升直接关系到国民经济的全局。

从农村市场看,中国有近六成人口生活在农村。

农村城镇化的进程对经济增长的带动作用是非常明显的,世界上还没有哪个国家有规模如此巨大的城镇化。

农村居民的收入虽然低于城市居民,但是基数巨大,且农村人口的收入也在稳定增长。

随着经济的发展,我国城镇居民的收入水平和消费水平的结构也发生了很大变化,人民生活水平的提高和消费的增加对于实现国民经济又好又快发展、正确处理好内需和外需的关系至关重要。

于是,我就城镇居民人均收入方面的数据作了分析,大致讨论了一下现今为止人民的收入水平以及各地区农民的生活状况。

正文:

我选取了中国统计年鉴上的一组数据,关于各地区城镇居民人均收入方面的问题,具体数据可以在文件夹中找到。

对该数据,我用统计软件对它进行了聚类、判别、因子、相应等方面的分析,想要通过对该数据的分析了解一下我国各城市的居民人均收入情况,并对此提出相应的建议。

具体分析情况如下:

一、首先,录入数据如下:

图-1

二、对所录入的数据做聚类分析:

“物以类聚,人以群分”。

对事物进行分类,是人们认识事物的出发点,也是人们认识世界的一种重要方法。

因此,分类学已成为人们认识世界的一门基础科学。

为了克服定性分类存在的不足,人们把数学方法引入分类中,形成了数值分类学。

后来随着多元统计分析的发展,从数值分类学中逐渐分离出了聚类分析方法。

随着计算机技术的不断发展,利用数学方法研究分类不仅非常必要而且完全可能,因此近年来,聚类分析的理论和应用得到了迅速的发展。

聚类分析就是分析如何对样品(或变量)进行量化分类的问题。

通常聚类分析分为Q型聚类和R型聚类。

Q型聚类是对样品进行分类处理,R型聚类是对变量进行分类处理。

在这里我用了系统聚类对数据进行聚类分析,也是属于Q型聚类,按照收入水平高、中、低的原则,初步把各个省份分为三类。

为了在第三步里进行判别分析,所以我首先取出了河北、上海、广东、西藏四个地区的信息,对其他的地区进行分类分析。

表-1

聚类表

群集组合

系数

首次出现阶群集

下一阶

群集1

群集2

群集1

群集2

1

11

16

92847.908

0

0

6

2

7

13

193129.034

0

0

5

3

4

15

384319.331

0

0

5

4

22

26

653214.995

0

0

8

5

4

7

991593.025

3

2

13

6

11

21

1332913.801

1

0

12

7

18

20

1760721.431

0

0

11

8

8

22

2311763.109

0

4

14

9

19

27

2913511.672

0

0

13

10

17

23

3542513.902

0

0

15

11

5

18

4297698.284

0

7

19

12

11

24

5149736.495

6

0

15

13

4

19

6612667.022

5

9

16

14

8

25

8302676.456

8

0

18

15

11

17

1.014E7

12

10

16

16

4

11

1.250E7

13

15

24

17

1

14

1.596E7

0

0

22

18

8

28

1.990E7

14

0

24

19

5

6

2.388E7

11

0

22

20

9

12

2.880E7

0

0

21

21

3

9

4.313E7

0

20

25

22

1

5

6.321E7

17

19

26

23

2

10

8.620E7

0

0

25

24

4

8

1.215E8

16

18

26

25

2

3

2.326E8

23

21

27

26

1

4

3.490E8

22

24

27

27

1

2

1.349E9

26

25

0

上表是我用系统聚类得到的聚类表,其中包括了群集组合、系数和首次出现阶群集,从中可以看出不同的群集之间的系数差异较大。

表-2

群集成员

案例

3群集

1:

全国

1

2:

北京

2

3:

天津

2

4:

山西

3

5:

内蒙古

1

6:

辽宁

1

7:

吉林

3

8:

黑龙江

3

9:

江苏

2

10:

浙江

2

11:

安徽

3

12:

福建

2

13:

江西

3

14:

山东

1

15:

河南

3

16:

湖北

3

17:

湖南

3

18:

广西

1

19:

海南

3

20:

重庆

1

21:

四川

3

22:

贵州

3

23:

云南

3

24:

陕西

3

25:

甘肃

3

26:

青海

3

27:

宁夏

3

28:

新疆

3

表-2是我用系统聚类得到的最终的聚类结果。

从表中可以看出,内蒙古、辽宁、山东、广西和重庆分为第一类;北京、天津、江苏、浙江和福建分为第二类;其余的省份分为第三类。

从原数据表中可以看出,第二类的收入水平很高,属于在工资方面比较发达的地区,人民生活水平也应该比较高;第三类的收入水平很低,属于不太富裕的地区,人民生活水平有待提高;第一类的收入水平居中,人民生活水平相对比较不错。

*******************HIERARCHICALCLUSTERANALYSIS*******************

DendrogramusingAverageLinkage(BetweenGroups)

RescaledDistanceClusterCombine

CASE0510152025

LabelNum+---------+---------+---------+---------+---------+

安徽13-+

湖北18-+

四川24-+

云南26-+

吉林8-+

江西15-+

山西5-+

河南17-+

海南22-+

宁夏31-+

湖南19-+

河北4-+

陕西28-+

广西21-+

重庆23-+

内蒙古6-+

辽宁7-+-+

贵州25-+|

青海30-+|

黑龙江9-++---------+

甘肃29-+||

新疆32-+||

西藏27---++-----------------------------------+

全国1-+---+||

山东16-+|||

江苏11-+-++-------+|

福建14-+|||

天津3---+-+|

广东20---+|

北京2-+-----+|

上海10-++-----------------------------------------+

浙江12-------+

图-2

图-2是聚类分析的树形图,可以大概的看一下分类结果,从中可以看出树形图中得出的结论和群集成员表的分类结果是相吻合的,也比较符合实际。

三、在聚类分析的基础上对其它的四个未分类的数据做出判别,找到属于它们的分类:

表-3

汇聚的组内矩阵

可支配收入

总收入

工资性收入

经营净收入

财产性收入

转移性收入

相关性

可支配收入

1.000

.978

.842

.129

.225

.378

总收入

.978

1.000

.882

.075

.166

.407

工资性收入

.842

.882

1.000

-.190

.080

.136

经营净收入

.129

.075

-.190

1.000

.452

-.308

财产性收入

.225

.166

.080

.452

1.000

-.456

转移性收入

.378

.407

.136

-.308

-.456

1.000

表-3是汇聚的组内矩阵,其中的数值表示的是每个变量同他自身以及其他的变量之间的相关系数,从中可以看出可支配收入、总收入和工资性收入之间的相关性是比较大的,而其他的几个变量之间的相关性较小。

表-4

标准化的典型判别式函数系数

函数

1

2

可支配收入

.905

2.392

总收入

.675

-3.988

工资性收入

-.725

2.044

经营净收入

-.116

.995

财产性收入

.061

-.628

标准化的典型判别函数是由标准化的自变量通过Fisher判别法得到的,通过上表可以得到标准化的典型判别函数,要得到标准化的典型判别得分,代入该函数的自变量必须是经过标准化的。

这种方法相对比较麻烦,我们一般不采用。

 

表-5

典型判别式函数系数

函数

1

2

可支配收入

0.000587

.002

总收入

0.000370

-.002

工资性收入

-0.000460

.001

经营净收入

-0.000209

.002

财产性收入

0.000200

-.002

(常量)

-11.498

-2.997

非标准化系数

上表是未标准化的典型判别函数系数,由于可以将实测的样品观测值直接代入求出判别得分,所以该系数使用起来比标准化的系数要方便一些,见表-5。

一般在输出表中是默认保留三位小数,但有些系数是0.000,为判别函数的结果造成误差,可以在右击后选择更改单元格格式中改一下显示的小数点位数。

由此表可知,两个Fisher判别函数分别为:

实际上两个函数式计算的是各观测值在各个维度上的坐标,这样就可以通过这三个函数式计算出各样品观测值的具体空间位置。

表-6

组质心处的函数

WardMethod

函数

1

2

1

.260

.705

2

5.149

-.234

3

-1.606

-.180

在组均值处评估的非标准化典型判别式函数

表-6给出了组重心处的函数,实际上为各类别重心在空间中的坐标位置。

这样,只要在前面计算出各观测值的具体坐标位置后,再计算出它们分别离各重心的距离,就可以得知它们的分类了。

 

表-7

分类函数系数

WardMethod

1

2

3

可支配收入

.017

.019

.015

总收入

-.007

-.003

-.006

工资性收入

-.002

-.005

-.002

经营净收入

.002

.000

.001

财产性收入

-.009

-.006

-.008

(常量)

-79.285

-145.684

-56.207

Fisher的线性判别式函数

如表-7所示,WardMethod栏中的每一列表示样品判入相应列的Bayes判别函数系数。

在本例中,各类的Bayes判别函数如下:

将各地区的自变量值代入上述三个Bayes判别函数,得到三个函数值。

比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。

结果可知(见图-3),河北、上海、广东、西藏应分别判入三、二、二、三类。

图-3

由于我们在保存子对话框中选择了生成表示判别结果的新变量,所以在数据编辑窗口中,可以观察到产生的新变量。

其中,变量dis-1存放判别样品所属组别的值,变量dis1-1,dis2-1分别代表将地区各变量值代入第一个,第二个判别函数所得的判别分数,变量dis1-2、dis2-2,dis3-2分别代表地区分别属于第1类、第2类,第3类的Bayes后验概率值。

四、对所录入的数据做因子分析:

因子分析也是一种降维、简化数据的技术。

它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个“抽象”的变量来表示其基本的数据结构。

这几个抽象的变量被称作“因子”,能反映原来众多变量的主要信息。

原始的变量是可观测的显在变量,而因子一般是不可观测的潜在变量。

表-8

相关矩阵a

可支配收入

总收入

工资性收入

经营净收入

财产性收入

转移性收入

相关

可支配收入

1.000

.998

.951

.495

.557

.777

总收入

.998

1.000

.959

.483

.545

.775

工资性收入

.951

.959

1.000

.334

.469

.610

经营净收入

.495

.483

.334

1.000

.634

.288

财产性收入

.557

.545

.469

.634

1.000

.241

转移性收入

.777

.775

.610

.288

.241

1.000

a.此矩阵不是正定矩阵。

表-8是相关矩阵表,相关系数反映每个变量相互之间的依赖程度,由上面的表可以看出多数变量之间相关性还是比较强的,工资性收入和经营净收入之间相关性最弱,相关系数为0.334.

表-9

公因子方差

初始

提取

可支配收入

1.000

.993

总收入

1.000

.992

工资性收入

1.000

.876

经营净收入

1.000

.806

财产性收入

1.000

.820

转移性收入

1.000

.747

提取方法:

主成份分析。

表-9是公因子方差表,里面包括各变量初始的方差和提取的因子的方差。

表-10

解释的总方差

成份

初始特征值

提取平方和载入

旋转平方和载入

合计

方差的%

累积%

合计

方差的%

累积%

合计

方差的%

累积%

1

4.151

69.185

69.185

4.151

69.185

69.185

3.354

55.896

55.896

2

1.083

18.043

87.228

1.083

18.043

87.228

1.880

31.331

87.228

3

.474

7.900

95.127

4

.290

4.825

99.952

5

.003

.048

100.000

6

1.064E-11

1.773E-10

100.000

提取方法:

主成份分析。

表-10给出各公因子方差贡献表,其中初始特征值的三列给出初始相关矩阵或协差阵矩阵的特征值,用于确定哪些因子应该被提取:

合计列为各因子对应的特征值,本例中共有两个因子对应的特征值大于1,因此应提取相应的两个公因子;方差的%列为各因子的方差贡献率;累积%列为各因子的累积方差贡献率,由上表可以看出,前两个因子已经可以解释87.228%的方差。

后面两大列给出提取出的公因子以及其经过旋转后的方差贡献情况。

图-4

图-4是各变量所占比重的碎石图,可见第一个成分的方差贡献率最大,而前两个成分的累积贡献率已经足够代表所有的变量。

表-11

成份矩阵a

成份

1

2

可支配收入

.986

-.143

总收入

.983

-.158

工资性收入

.907

-.229

经营净收入

.605

.663

财产性收入

.660

.621

转移性收入

.766

-.400

提取方法:

主成分分析法。

a.已提取了2个成份。

表-11给出旋转前的因子载荷阵,根据该表可以写出每个原始变量的因子表达式:

从上表可以看出,每个因子在不同原始变量上的载荷没有明显的差别,为了便于对因子进行命名,需要对因子载荷阵进行旋转。

表-12

旋转成份矩阵a

成份

1

2

可支配收入

.921

.380

总收入

.927

.365

工资性收入

.897

.266

经营净收入

.182

.879

财产性收入

.251

.870

转移性收入

.863

.047

提取方法:

主成分分析法。

旋转法:

具有Kaiser标准化的正交旋转法。

a.旋转在3次迭代后收敛。

表-12给出旋转后的因子载荷阵,从表上表可以看出,经过旋转后的载荷系数已经明显地两极分化了。

第一个公共因子在指标

上有较大载荷,说明这四个指标有较强的相关性,可以归为一类;第二个公共因子在指标

上有较大载荷,可以归为另一类。

表-13

成份转换矩阵

成份

1

2

1

.860

.510

2

-.510

.860

提取方法:

主成分分析法。

旋转法:

具有Kaiser标准化的正交旋转法。

表-13给出因子转换矩阵,若用A表示旋转前的因子载荷阵,用B表示因子转换矩阵,用C表示旋转后的因子载荷阵,则有:

C=AB。

表-14

成份得分系数矩阵

成份

1

2

可支配收入

.272

.007

总收入

.278

-.005

工资性收入

.296

-.070

经营净收入

-.187

.601

财产性收入

-.155

.574

转移性收入

.347

-.223

提取方法:

主成分分析法。

旋转法:

具有Kaiser标准化的正交旋转法。

构成得分。

表-14给出因子得分系数矩阵,根据上表中的因子得分系数和原始变量的标准化值可以计算每个观测值的各因子的得分数,并可以据此对观测量进行进一步的分析。

本例中旋转后的因子得分表达式可以写成:

注意:

在因子表达式中的各变量为进行标准化变换后的标准变量

图-5

由于我们在保存子对话框中选择了“保存为新变量”,所以在原表中多了两列。

见图-5.

五、下面对因子分析的结果做相应分析:

相应分析也叫对应分析,其特点是它所研究的变量可以是定性的。

通常意义下的相应分析,是指对两个定性变量(因素)的多种水平进行相应性研究,因而它的应用越来越广泛,现在这种方法已经成为常用的多元分析方法之一。

在社会、经济以及其他领域中,进行数据分析时经常要处理因素与因素之间的关系及因素内部各个水平之间的相互关系。

例如,评价某一个行业所属企业的经济效益,我们不仅要研究因素A,即企业按照经济效益好坏的分类情况,以及要研究因素B,即经济效益指标之间的关系,还要研究哪些企业与哪些经济效益指标更密切一些。

这就需要相应分析的方法,将经济效益指标和企业状况放在一起进行分类、作图,以便更好的描述两者之间的关系,在经济意义上做出切合实际的解释。

相应分析的思想首先由理查森和库德于1933年提出,后来法国统计学家让-保罗·贝内泽等人对该方法进行了详细的论述而使其得到了发展。

在因子分析中,我根据特征值大于1和累积贡献率大于80%的原则提取出了两个因子,一个是总收入因子,而另一个是可支配因子,要先对这两个因子进行重新编码(小于-0.5编为1,-0.5-0编为2,0-0.5编为3,0.5-1编为4,大于1编为5),然后根据相应分析的步骤进行相应分析。

表-15

对应表

总收入因子

可支配因子

1

2

3

4

5

有效边际

1

4

2

1

3

0

10

2

5

5

1

1

0

12

3

0

1

2

0

2

5

4

0

0

0

1

1

2

5

2

1

0

0

0

3

有效边际

11

9

4

5

3

32

上表为对应表,由上表可以看出可支配因子中的第1部分在总收入因子中的除了3、4以外的各部分所占的比例都相对较高。

而总收入因子中的第2部分在可支配因子中的1、2部分所占的比例就是较大的。

说明两个因子互相之间在前两个部分的相关程度还是很大的。

表-16

摘要

维数

惯量比例

置信奇异值

相关

奇异值

惯量

卡方

Sig.

解释

累积

标准差

2

1

.719

.517

.674

.674

.106

-.341

2

.438

.192

.250

.924

.146

3

.210

.044

.058

.982

4

.118

.014

.018

1.000

总计

.767

24.547

.078a

1.000

1.000

a.16自由度

上表为相应分析的总览表,表中从左到右依次是维度编号、奇异值、惯量、卡方统计量、显著性、惯量所占总惯量比例、每个维度的奇异值的标准差和相关系数。

奇异值为特征值的平方根,根据总惯量和特征值求和相等,有

第一个维度惯量0.517,占总惯量的67.4%,第二个维度惯量接近0.192,占总惯量25.0%,第三个维度惯量接近0.044,占总惯量5.8%,第四个维度惯量接近0.014,占总惯量1.8%。

根据累计贡献率,可以认为只要用前两个维度就可以解释行列变量

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 初中教育 > 其它课程

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1