全国各地区流动人口影响因素研究 基于因子分析和多元线性回归模型实证分析.docx
《全国各地区流动人口影响因素研究 基于因子分析和多元线性回归模型实证分析.docx》由会员分享,可在线阅读,更多相关《全国各地区流动人口影响因素研究 基于因子分析和多元线性回归模型实证分析.docx(33页珍藏版)》请在冰豆网上搜索。
全国各地区流动人口影响因素研究基于因子分析和多元线性回归模型实证分析
全国各地区流动人口影响因素研究
——基于因子分析和多元线性回归模型实证分析
广东外语外贸大学
目录
摘要-1-
1.引言-2-
2.研究现状及存在的问题-2-
3.基本思路及创新-3-
4.模型构建前的准备-3-
4.1模型假设-3-
4.2数据来源-3-
4.3指标的选择-3-
4.3.1反映经济状况的指标-3-
4.3.2反映地区居民生活的指标-4-
4.3.3反映公共服务的指标-4-
4.4变量的预处理-4-
5.模型的建立-5-
5.1因子分析模型-5-
5.1.1模型的选定-5-
5.1.2因子分析的数学模型-5-
5.1.3因子分析-6-
5.2聚类分析模型-10-
5.3关联度分析-13-
5.4多元回归模型-15-
5.4.1模型设定-15-
5.4.2参数估计-15-
5.4.3计量经济检验-15-
5.4.4模型改进-16-
6.结论与建议-18-
7.模型的不足与改进-19-
参考文献-19-
附录-20-
摘要:
我国的流动人口一直处于增长趋势,到2009年,全国流动人口上升至2.11亿人。
政府高度重视流动人口工作,并出台了一系列政策措施。
本文运用因子分析、聚类分析等方法构建了流动人口影响因素的多元回归模型,对我国31个省市流动人口的影响因素进行了实证研究。
研究结果表明:
地区的综合发展水平是人口流动的驱动因素,东部沿海城市是人口最为青睐的流向城市。
关键词:
流动人口因子分析聚类分析关联度分析多元回归模型
1.引言
在中国,流动人口是在户籍制度条件下的一个概念,目前尚无明确、统一的定义。
一般是这样认为:
流动人口是指离开户籍所在地的县、市或者直辖区,以工作、生活为目的的异地居住的成年育龄人员。
随着工业化,城镇化的快速发展,中国进入了人口流动的活跃时期,数据显示,我国正经历人类史上最大规模的人口流动。
1982年至2009年,中国流动人口数量由657万上升至2.11亿人【1】。
人口流动具有重大的意义。
人口流动能够为人口流入地区提供大量的劳动力,促进地区制造业,服务业等行业的发展,总体上来说,人口流动能够为国家的经济腾飞提供丰富的劳动力,为城市化、现代化顺利发展奠定了基础,调节劳动力的地区分配。
但是大量的人口流动相应地引起一些问题:
据统计,2009年中国流动人口平均年龄为27.3岁,流动人口中78.7%为农业户口,以青壮年为主。
大部分流动人口的文化程度比较低。
而大量的流动人口流入地区,势必引起人口流入地区的交通,教育,环境等问题,在制度还不完善的情况下,流动人口的医疗,保险等社会保障严重缺乏。
即使近年来国家出台一系列加强流动人口服务管理的重大决策,但大规模的人口流动会给地方政府的管理带来严峻的挑战。
如果能够建立关于流动人口与地区发展状况的模型,利用模型来研究流动人口与地区发展的关系,并初步预测流动人口,将对国家对流动人口的有序引导,地区对流动人口的管理有重大的意义。
2.研究现状及存在问题
现阶段关于流动人口的文献可分为两大方面,一方面是关于流动人口现状的分析报告,另一方面是关于流动人口预测的模型。
流动人口预测的模型是人口预测的一大难题,目前还没有一种可以用于不同地区的基本办法。
西方关于人口流动预测模型比较完善的是托达罗模型,但是由于模型只表明了决定迁移的因素和关系,并没有表达出被解释变量与各因素之间明确的函数关系,所以没有得到广泛应用[2]。
在国内,有学者曾经利用地区流动人口占常住人口的比例来建立流动人口预测模型,但是由于常住人口也是经常变动,数据获取难度大,也没有得到推广。
很多学者在流动人口预测方面做了大量的研究,但是,可以发现存在一个问题。
大多数文献都有提到,人口流动受到许多因素的影响和制约,多因素法是最理想的办法,若能建立流动人口与各社会因素之间的一种线性或非线性模型,便能在充分考虑各种影响因素的基础上预测流动人口规模的变化,但是难度很大。
纳入模型的影响因素的选择和影响因素数据的获取等各个方面的困难,使该方面的研究停滞不前。
3.基本思路及创新
通过收集资料,确定流动人口的主要因素,即指标,对所选择的指标进行因子分析。
接着,利用因子分析提取的主要因子与流动人口进行关联度分析,计算其关联度,若关联度高,则用流动人口对主要因子进行回归分析,得到各个地区的发展状况与流动人口之间关系的模型。
在模型建立过程中,利用聚类辅助分析流动人口的地域差异。
指标的选取原则为:
尽可能全面,简洁,可获性,科学性,系统性。
本文的创新之处在于,在研究人口流动与多因素之间的关系的时候,采用因子分析,聚类等方法对数据处理后建立线性或者非线性模型。
本着大胆假设,小心求证的精神,建立人口预测模型,定量分析流动人口。
4.模型构建前的准备
4.1模型假设
(1)流动人口的定义:
由于流动人口至今都没有一个统一的统计口径,所以无法找到直接反映我国流动人口的数据。
本文将户口在外地,住在本地区半年以上的人员(包括户口待定的人员)作为流动人口。
(2)假定各个地区在短期内,发展状况稳定。
所以可选取2009年的数据来反映短期内地区的发展状况。
4.2数据来源
本文的流动人口数据是根据2009年全国各地区分性别、户口登记状况的人口推算而得的。
推算方法是将住本乡、镇、街道,户口在外地半年以上人口加上住本乡、镇、户口待定人口,再除以0.873‰的抽样比。
所得2009年全国各地区流动人口数见附录。
4.3指标的选择
4.3.1反映经济状况的指标
地区间的经济状况差异会引起流动人口,由最近几年关于流动人口的新闻报道中可以看出,地区发展越好,该地区的流动人口越多。
本文选取地区GDP以反映地区的该地区的经济表现,选取地区的社会消费品零售总额以反映该地区购买能力的实现,选取地区的第一产业生产总值,第二产业生产总值,和第三产业生产总值分别占国民生产总值的比重以反映该地区的经济结构。
4.3.2反映地区居民生活的指标
地区的居民生活状况也是人口流动的成因之一,人们都是向往美好的生活的。
本文选取城镇居民人均年可支配收入和农村居民人均年纯收入以反映城乡居民间的收入差异。
选取CPI和商品零售价格总指数来反映地区的消费水平。
选取城镇人口比重来反映该地区目前的城镇化水平。
该地区的流动人口的就业程度可以反映地区对流动人口的容纳情况,可是由于流动人口各个方面的数据难以统计,所以文章选取逆向指标城镇登记失业率,来反映该地区的就业情况。
4.3.3反映公共服务的指标
根据《中国流动人口发展报告》中对当前流动人口生存发展的基本状况分析
中可以得知,我国流动人口家庭的平均规模为2.3人,67.4%为夫妻/子女一起居住。
而流动人口的子女中,70.2%为流动儿童,29.8%为留守儿童。
因此大胆推断,流动人口的子女就学等问题也是流动人口的影响因素之一,所以选取地区的教育财政支出来反映该地区的教育事业发展程度。
综合各个方面的考虑,选取的指标有:
GDP、社会消费品零售总额、第一产业生产总值,第二产业生产总值,和第三产业生产总值分别占国民生产总值的比重、城镇居民人均年可支配收入、农村居民人均年纯收入、CPI、商品零售价格指数、城镇人口占全国人口的比重、城镇登记失业率、教育财政支出。
4.4变量的预处理
对各个指标进行无量钢化处理,即数据标准化,消除单位的影响。
通过对数据的预分析,发现第一产业总值所占比重和第二产业所占比重对流动人口的影响较小。
根据《中国流动人口发展报告》,三大产业是流动人口就业的主要领域:
制造业、批发零售业和社会服务业吸纳了近七成流动人口就业,第三产业从业比重超过第一、第二产业之和。
所以,从指标中删除第一产业所占比重和第二产业所占比重。
经过预处理,确定本文分析的变量为标准化处理后的流动人口、GDP、社会消费品零售总额、第三产业生产总值比重、城镇居民人均年可支配收入、农村居民人均年纯收入、CPI、商品零售价格指数、城镇人口比重、城镇登记失业率、教育财政支出。
5.模型的建立
5.1因子分析模型
5.1.1模型的选定
一般而言,在四维或者更多维度的空间进行数据分析和处理是一件很困难的事。
但如果能够把维度降下来,在低维空间中对数据进行解释比在高维空间就容易得多。
而且在大多数情况下,许多变量之间存在一定的相关关系,这就为用较少的综合性指标来描述和反映原有变量中所包含的信息提供了可能。
因此对本文选取的影响全国各地区流动人口的10个变量进行降维处理,形成少数独立的、不相关的综合指标来进行数据解释是很有必要的。
这样一方面减弱了变量之间的多重共线性,另一方面也在一定程度上减少了数据分析和采集的工作量。
因子分析过程实际上就是降维处理的过程,是一种用少数几个因子来描述许多指标或因素之间的联系和反映原有资料的大部分信息的多元统计分析方法。
因子分析是主成分分析的推广和发展,它既能客观计算出一个可供评价的综合得分,又克服了主成分分析无法直接得到分化的指标载荷,不便于选取指标的缺点。
同时,因子分析模型的整个处理过程基本是客观的,结果可以进行统计检验。
通过以上分析,本文选取因子分析模型来对10个变量进行降维处理,建立流动人口的统计指标体系。
5.1.2因子分析的数学模型
本文在建立流动人口指标体系过程中采取的因子分析的数学模型如下:
公式1
其中,
是原有的
个指标,
称为
的公共因子或潜因子,即前面所说的综合指标;
称为因子载荷,是第
个变量在第
个公共因子上的负荷;
称为
的特殊因子。
5.1.3因子分析
(1)确定待分析的原有指标是否适合进行因子分析
本文用于检验指标是否适合于作因子分析的方法是KMO检验和Bartlett球形检验。
当KMO>0.5,Bartlett球形检验的相伴概率值小于0.05时,适合作因子分析。
运用统计软件SPSS进行的KMOandBartlett检验结果如表1。
表1KMOandBartlett检验
KMOandBartlett'sTest
Kaiser-Meyer-OlkinMeasureofSamplingAdequacy.
.651
Bartlett'sTestofSphericity
Approx.Chi-Square
420.001
df
45
Sig.
.000
由以上结果可以看出,KMO的值为0.651,大于0.5,而Bartlett检验的值为420.001,相应概率值近似为0.000,在5%的显著性水平下拒绝原假设,认为原有变量间存在关联性。
因此原有指标适合作因子分析。
(2)因子提取,确定描述数据所需要的因子数
首先对数据进行一致化和标准化处理,其中城镇登记失业率是逆指标,所以需要取倒数,进行正向化处理。
接着建立指标间的相关系数阵并求出其特征值和特征向量,同时画出特征值的碎石图,具体结果如下:
表2解释方差总和
TotalVarianceExplained
Component
InitialEigenvalues
ExtractionSumsofSquaredLoadings
RotationSumsofSquaredLoadings
Total
%ofVariance
Cumulative%
Total
%ofVariance
Cumulative%
Total
%ofVariance
Cumulative%
1
5.184
51.840
51.840
5.184
51.840
51.840
3.617
36.175
36.175
2
2.275
22.748
74.588
2.275
22.748
74.588
3.207
32.073
68.248
3
1.274
12.738
87.325
1.274
12.738
87.325
1.908
19.077
87.325
4
.732
7.325
94.650
5
.264
2.635
97.285
6
.157
1.569
98.854
7
.058
.576
99.430
8
.034
.341
99.771
9
.017
.173
99.944
10
.006
.056
100.000
表2显示:
第1个因子的特征值为5.184,大约占去方差的51.840%,基于过程内定取特征值大于1的原则,因子分析过程提取了第1、2、3个因子即F1、F2、F3,这3个因子共占去方差的87.325%,因此提取3个公因子是完全合理的。
并且被放弃的其他7个因子解释的方差占不到20%,更加能够说明前3个因子提供了原始数据的足够信息。
图1因子碎石图
从因子碎石图也明显看出,前3个因子的特征值都大于1,从第4个因子开始特征值比较低,都小于1,可以认为前3个因子能概括绝大部分信息。
因此保留3个因子,将一个十维的问题降至三维,这样既减少了指标的数目,又尽可能地保证了整个指标系统的完整。
(3)因子旋转,集中于变换因子使之更好解释
要建立指标的因子模型,关键是要根据指标间的相关系数矩阵估计因子载荷阵。
本文采取主成分法对因子载荷阵进行估计,同时为了知道每个公因子的意义,以便进行较好的解释和命名,再采用最大方差法进行因子旋转,得表3。
表3旋转后的因子载荷阵
Component
1
2
3
教育财政支出
.090
.949
-.180
第三产业比重
.854
-.263
-.135
城镇人口比重
.851
.206
-.113
GDP
.157
.967
-.153
社会消费品零售总额
.181
.954
-.175
CPI
-.234
-.261
.901
商品零售价格指数
-.189
-.149
.946
城市居民人均年可支配收入
.860
.369
-.184
农村居民人均年纯收入
.884
.341
-.111
城镇登记失业率
.698
.077
-.191
由上表可看出,旋转后的因子系数很明显地两极分化,有了更鲜明的实际意义。
F1中系数绝对值大的主要有:
第三产业比重、城镇人口比重、城镇居民人均年可支配收入、农村居民人均年纯收入、城镇登记失业率,这5个指标变量主要是用来反映各地区的城市化发展的;F2中系数绝对值大的主要有:
教育财政支出、GDP、社会消费品零售总额,这3个指标变量主要用来反映各地区的经济发展、教育事业的投入、居民物质文化生活水平等综合发展状况;而F3中系数绝对值大的主要有:
CPI、商品零售价格指数,这2个因子主要反映了各地区的价格情况。
基于以上的分析,对3个公因子进行了命名,如表4:
表4公共因子命名表
公共因子
变量
累计贡献率
城市化发展因子
第三产业比重
87.325%
城镇人口比重
城市居民人均年可支配收入
农村居民人均年纯收入
城镇登记失业率
经济社会发展因子
教育财政支出
GDP
社会消费品零售总额
价格因子
CPI
商品零售价格指数
(4)因子得分,计算每一个样本的因子得分
由于公共因子能反映原始指标的相关关系,为便于描述研究对象的特征,需要用公共因子代表原始变量,即用指标的观测值来计算各个因子得分,其数学模型为:
j=1,…,m公式2
其中,
为标准化后的数据。
由SPSS估计出的因子得分系数如下:
表5因子得分系数矩阵
ComponentScoreCoefficientMatrix
Component
1
2
3
教育财政支出
-.067
.330
.037
第三产业比重
.293
-.185
-.002
城镇人口比重
.261
-.001
.085
GDP
-.041
.337
.068
社会消费品零售总额
-.035
.326
.055
CPI
.078
.056
.544
商品零售价格指数
.092
.103
.599
城市居民人均年可支配收入
.241
.050
.063
农村居民人均年纯收入
.262
.049
.112
城镇登记失业率
.205
-.051
-.012
从表中可看出,第三产业比重、城镇人口比重、城市居民人均年可支配收入、农村居民人均年纯收入、城镇登记失业率与第1个因子呈正相关关系,教育财政支出、GDP、社会消费品零售总额则与第2个因子呈正相关关系,同样CPI、商品零售价格指数与第3个因子也呈正相关关系。
因此可以把原来的10个指标综合为3个因子,即城市化发展因子、经济社会发展因子、价格因子,这样后面进行的回归方程就简化得多了。
根据以上系数和公式2即可得到对应的F1、F2、F3三个函数,同时根据各个因子的方差贡献率计算因子的综合得分:
公式3
下表是各地区的因子得分:
表6因子得分
地区
城市化发展因子F1
排名
经济社会发展因子F2
排名
价格因子F3
排名
综合评分F
排名
北京
3.85390
1
-0.73215
25
-0.69505
25
1.18
2
天津
1.30034
3
-0.59571
24
-0.10880
17
0.30
8
河北
-0.63789
28
0.65115
7
-0.23140
20
-0.08
13
山西
内蒙古
-0.41341
18
-0.35430
19
-0.21025
18
-0.35
23
-0.11726
11
-0.22650
15
0.17598
14
-0.09
15
辽宁
0.10952
7
0.47183
8
0.68808
7
0.37
7
吉林
-0.15838
12
-0.36641
20
0.20398
13
-0.16
16
黑龙江
-0.26076
15
-0.25651
16
0.05130
16
-0.19
18
上海
2.65266
2
0.20297
9
0.93424
5
1.38
1
江苏
0.30388
6
2.22491
3
0.39611
12
1.03
3
浙江
0.94957
4
1.20759
4
-0.21529
19
0.79
5
安徽
-0.63215
26
-0.07204
12
-0.46622
24
-0.39
26
福建
0.08438
8
-0.15419
14
-1.30629
27
-0.31
22
江西
-0.46605
18
-0.33842
19
-0.34535
18
-0.39
23
山东
-0.30460
16
2.27094
2
0.69006
6
0.86
4
河南
-0.92062
31
1.12774
5
0.06072
15
0.05
12
湖北
-0.45875
22
0.17375
10
-0.35676
22
-0.20
19
湖南
-0.42487
19
0.11494
11
-0.42536
23
-0.23
21
广东
0.35632
5
2.45648
1
-1.59994
28
0.70
6
广西
-0.74586
30
-0.46406
21
-1.73423
30
-0.86
30
海南
0.01693
9
-1.35545
30
-0.75526
26
-0.66
28
重庆
-0.44703
20
-0.75229
26
-1.75205
31
-0.84
29
四川
-0.63735
27
0.70908
6
1.04509
3
0.22
9
贵州
-0.73110
29
-1.07275
29
-1.67420
28
-1.06
31
云南
-0.56143
25
-0.30284
17
0.63049
9
-0.21
20
西藏
-0.07602
10
-1.46837
31
0.59993
10
-0.44
27
陕西
-0.45439
21
-0.14441
13
0.67255
8
-0.09
14
甘肃
-0.34846
17
-0.54001
23
1.83546
2
0.06
11
青海
-0.16244
13
-0.80016
27
2.48432
1
0.18
10
宁夏
-0.17449
14
-1.13091
29
0.47285
11
-0.38
24
新疆
-0.49421
24
-0.48389
22
0.93530
4
-0.18
17
5.2聚类分析模型
根据因子分析的结果,可初步看出各个因子对流动人口的影响。
但是逐个地区去分析很耗费人力物力,是不科学的。
较好的做法是选取几个指标对31个地区进行分类,然后根据分类结果对各地区的流动人口进行综合评价,就易于得出科学的分析。
为了了解各地区具体的流动人口情况,并进一步证实所选取的10个指标对不同流动人口的巨大影响,同时为后面进行的回归方程提供可行性依据,本文根据因子分析提取的3个公因子对各地区进行层次聚类分析,具体结果如下:
图2聚类分析的树状图
综合以上分析的结果,把地区分成3类,列表如下:
表7地区分类表
类别
地区
流动人口数(人)
类别
地区
流动人口数(人)
1
北京
7935853
3
四川
5182131
上海
5674685
辽宁
3161512
2
广东
27810997
河南
2026346
浙江
8902635
河北
4431844
山东
4171821
新疆
1008018
江苏
9317297
陕西
2323024
3
青海
506300
云南
2269187
甘肃
599084
黑龙江
3726231
福建
7017182
吉林
1623139
贵州
2400916
内蒙古
3000000
重庆
2402062
江西
2568156
广西
2065292
山西
2609393
天津
1485682
安徽
3066438
海南
719359
湖南
2138603
宁夏
565865
湖北
2981672
西藏
10309
由表7可看出,不同类别地区的流动人口有明显的差异。
首先第一类地区是北京和上海,这两个地区的综合评分分别排名第1和第2,但它们的流动人口数却没有第二类的地区大。
主要是因为北京和上海的城市发展水平因子得分远高于其它城市,这是吸引流动