全国各地区流动人口影响因素研究 基于因子分析和多元线性回归模型实证分析.docx
《全国各地区流动人口影响因素研究 基于因子分析和多元线性回归模型实证分析.docx》由会员分享,可在线阅读,更多相关《全国各地区流动人口影响因素研究 基于因子分析和多元线性回归模型实证分析.docx(27页珍藏版)》请在冰豆网上搜索。
全国各地区流动人口影响因素研究基于因子分析和多元线性回归模型实证分析
全国各地区流动人口影响因素研究——基于因子分析和多元线性回归模型实证分析
全国各地区流动人口影响因素研究
——基于因子分析和多元线性回归模型实证分析
广东外语外贸大学
摘要.....................................................................................错误~未定义书签。
-1-1.引言....................................................................................错误~未定义书签。
-2-2.研究现状及存在的问题.....................................................错误~未定义书签。
-2-3.基本思路及创新.................................................................错误~未定义书签。
-3-4.模型构建前的准备.............................................................错误~未定义书签。
-3-
4.1模型假设...................................................................错误~未定义书签。
-3-
4.2数据来源...................................................................错误~未定义书签。
-3-
4.3指标的选择...............................................................错误~未定义书签。
-3-
4.3.1反映经济状况的指标....................................错误~未定义书签。
-3-
4.3.2反映地区居民生活的指标............................错误~未定义书签。
-4-
4.3.3反映公共服务的指标....................................错误~未定义书签。
-4-
4.4变量的预处理...........................................................错误~未定义书签。
-4-5.模型的建立.........................................................................错误~未定义书签。
-5-
-5.1因子分析模型...........................................................错误~未定义书签。
-5
5.1.1模型的选定...................................................错误~未定义书签。
-5-
5.1.2因子分析的数学模型....................................错误~未定义书签。
-5-
5.1.3因子分析.......................................................错误~未定义书签。
-6-
5.2聚类分析模型.........................................................错误~未定义书签。
-10-
5.3关联度分析.............................................................错误~未定义书签。
-13-
5.4多元回归模型.........................................................错误~未定义书签。
-15-
5.4.1模型设定.....................................................错误~未定义书签。
-15-
5.4.2参数估计.....................................................错误~未定义书签。
-15-
5.4.3计量经济检验.............................................错误~未定义书签。
-15-
5.4.4模型改进.....................................................错误~未定义书签。
-16-6.结论与建议.......................................................................错误~未定义书签。
-18-7.模型的不足与改进...........................................................错误~未定义书签。
-19-参考文献.............................................................................错误~未定义书签。
-19-附录.....................................................................................错误~未定义书签。
-20-
摘要:
我国的流动人口一直处于增长趋势~到2009年~全国流动人口上升至2.11亿人。
政府高度重视流动人口工作~并出台了一系列政策措施。
本文运用因子分析、聚类分析等方法构建了流动人口影响因素的多元回归模型~对我国31个省市流动人口的影响因素进行了实证研究。
研究结果表明:
地区的综合发展水平是人口流动的驱动因素~东部沿海城市是人口最为青睐的流向城市。
关键词:
流动人口因子分析聚类分析关联度分析多元回归模型
1.引言
在中国,流动人口是在户籍制度条件下的一个概念,目前尚无明确、统一的定义。
一般是这样认为:
流动人口是指离开户籍所在地的县、市或者直辖区,以工作、生活为目的的异地居住的成年育龄人员。
随着工业化,城镇化的快速发展,中国进入了人口流动的活跃时期,数据显示,我国正经历人类史上最大规模的人
【1】口流动。
1982年至2009年,中国流动人口数量由657万上升至2.11亿人。
人口流动具有重大的意义。
人口流动能够为人口流入地区提供大量的劳动力,促进地区制造业,服务业等行业的发展,总体上来说,人口流动能够为国家的经济腾飞提供丰富的劳动力,为城市化、现代化顺利发展奠定了基础,调节劳动力的地区分配。
但是大量的人口流动相应地引起一些问题:
据统计,2009年中国流动人口平均年龄为27.3岁,流动人口中78.7%为农业户口,以青壮年为主。
大部分流动人口的文化程度比较低。
而大量的流动人口流入地区,势必引起人口流入地区的交通,教育,环境等问题,在制度还不完善的情况下,流动人口的医疗,保险等社会保障严重缺乏。
即使近年来国家出台一系列加强流动人口服务管理的重大决策,但大规模的人口流动会给地方政府的管理带来严峻的挑战。
如果能够建立关于流动人口与地区发展状况的模型,利用模型来研究流动人口与地区发展的关系,并初步预测流动人口,将对国家对流动人口的有序引导,地区对流动人口的管理有重大的意义。
2.研究现状及存在问题
-1-
现阶段关于流动人口的文献可分为两大方面,一方面是关于流动人口现状的分析报告,另一方面是关于流动人口预测的模型。
流动人口预测的模型是人口预测的一大难题,目前还没有一种可以用于不同地区的基本办法。
西方关于人口流动预测模型比较完善的是托达罗模型,但是由于模型只表明了决定迁移的因素和关系,并没有表达出被解释变量与各因素之间明确的函数关系,所以没有得到广
[2]泛应用。
在国内,有学者曾经利用地区流动人口占常住人口的比例来建立流动人口预测模型,但是由于常住人口也是经常变动,数据获取难度大,也没有得到推广。
很多学者在流动人口预测方面做了大量的研究,但是,可以发现存在一个问题。
大多数文献都有提到,人口流动受到许多因素的影响和制约,多因素法是最理想的办法,若能建立流动人口与各社会因素之间的一种线性或非线性模型,便能在充分考虑各种影响因素的基础上预测流动人口规模的变化,但是难度很大。
纳入模型的影响因素的选择和影响因素数据的获取等各个方面的困难,使该方面的研究停滞不前。
3.基本思路及创新
通过收集资料,确定流动人口的主要因素,即指标,对所选择的指标进行因子分析。
接着,利用因子分析提取的主要因子与流动人口进行关联度分析,计算其关联度,若关联度高,则用流动人口对主要因子进行回归分析,得到各个地区的发展状况与流动人口之间关系的模型。
在模型建立过程中,利用聚类辅助分析流动人口的地域差异。
指标的选取原则为:
尽可能全面,简洁,可获性,科学性,系统性。
本文的创新之处在于,在研究人口流动与多因素之间的关系的时候,采用因子分析,聚类等方法对数据处理后建立线性或者非线性模型。
本着大胆假设,小心求证的精神,建立人口预测模型,定量分析流动人口。
4.模型构建前的准备
4.1模型假设
(1)流动人口的定义:
由于流动人口至今都没有一个统一的统计口径,所以无法找到直接反映我国流动人口的数据。
本文将户口在外地,住在本地区半年以
-2-
上的人员(包括户口待定的人员)作为流动人口。
(2)假定各个地区在短期内,发展状况稳定。
所以可选取2009年的数据来反映短期内地区的发展状况。
4.2数据来源
本文的流动人口数据是根据2009年全国各地区分性别、户口登记状况的人口推算而得的。
推算方法是将住本乡、镇、街道,户口在外地半年以上人口加上住本乡、镇、户口待定人口,再除以0.873‰的抽样比。
所得2009年全国各地区流动人口数见附录。
4.3指标的选择
4.3.1反映经济状况的指标
地区间的经济状况差异会引起流动人口,由最近几年关于流动人口的新闻报道中可以看出,地区发展越好,该地区的流动人口越多。
本文选取地区GDP以反映地区的该地区的经济表现,选取地区的社会消费品零售总额以反映该地区购买能力的实现,选取地区的第一产业生产总值,第二产业生产总值,和第三产业生产总值分别占国民生产总值的比重以反映该地区的经济结构。
4.3.2反映地区居民生活的指标
地区的居民生活状况也是人口流动的成因之一,人们都是向往美好的生活
的。
本文选取城镇居民人均年可支配收入和农村居民人均年纯收入以反映城乡居民间的收入差异。
选取CPI和商品零售价格总指数来反映地区的消费水平。
选取城镇人口比重来反映该地区目前的城镇化水平。
该地区的流动人口的就业程度可以反映地区对流动人口的容纳情况,可是由于流动人口各个方面的数据难以统计,所以文章选取逆向指标城镇登记失业率,来反映该地区的就业情况。
4.3.3反映公共服务的指标
根据《中国流动人口发展报告》中对当前流动人口生存发展的基本状况分析中可以得知,我国流动人口家庭的平均规模为2.3人,67.4%为夫妻/子女一起居住。
而流动人口的子女中,70.2%为流动儿童,29.8%为留守儿童。
因此大胆推断,流动人口的子女就学等问题也是流动人口的影响因素之一,所以选取地区的教育财政支出来反映该地区的教育事业发展程度。
-3-
综合各个方面的考虑,选取的指标有:
GDP、社会消费品零售总额、第一产业生产总值,第二产业生产总值,和第三产业生产总值分别占国民生产总值的比重、城镇居民人均年可支配收入、农村居民人均年纯收入、CPI、商品零售价格指数、城镇人口占全国人口的比重、城镇登记失业率、教育财政支出。
4.4变量的预处理
对各个指标进行无量钢化处理,即数据标准化,消除单位的影响。
通过对数据的预分析,发现第一产业总值所占比重和第二产业所占比重对流动人口的影响较小。
根据《中国流动人口发展报告》,三大产业是流动人口就业的主要领域:
制造业、批发零售业和社会服务业吸纳了近七成流动人口就业,第三产业从业比重超过第一、第二产业之和。
所以,从指标中删除第一产业所占比重和第二产业所占比重。
经过预处理,确定本文分析的变量为标准化处理后的流动人口、GDP、社会消费品零售总额、第三产业生产总值比重、城镇居民人均年可支配收入、农村居民人均年纯收入、CPI、商品零售价格指数、城镇人口比重、城镇登记失业率、教育财政支出。
5.模型的建立
5.1因子分析模型
5.1.1模型的选定
一般而言,在四维或者更多维度的空间进行数据分析和处理是一件很困难的事。
但如果能够把维度降下来,在低维空间中对数据进行解释比在高维空间就容易得多。
而且在大多数情况下,许多变量之间存在一定的相关关系,这就为用较少的综合性指标来描述和反映原有变量中所包含的信息提供了可能。
因此对本文选取的影响全国各地区流动人口的10个变量进行降维处理,形成少数独立的、不相关的综合指标来进行数据解释是很有必要的。
这样一方面减弱了变量之间的多重共线性,另一方面也在一定程度上减少了数据分析和采集的工作量。
因子分析过程实际上就是降维处理的过程,是一种用少数几个因子来描述许多指标或因素之间的联系和反映原有资料的大部分信息的多元统计分析方法。
因子分析是主成分分析的推广和发展,它既能客观计算出一个可供评价的综合得分,又克服了主成分分析无法直接得到分化的指标载荷,不便于选取指标的缺点。
-4-
同时,因子分析模型的整个处理过程基本是客观的,结果可以进行统计检验。
通过以上分析,本文选取因子分析模型来对10个变量进行降维处理,建立流动人口的统计指标体系。
5.1.2因子分析的数学模型
本文在建立流动人口指标体系过程中采取的因子分析的数学模型如下:
XaFaF?
aF,,,,,,,11111221mm1,XaFaF?
aF,,,,,,22112222mm2,,?
?
XaFaF?
aF,,,,,,pp11p22pmmp,公式1
XF,(F,?
F)'其中,是原有的p个指标,称为的公共X,(X,?
X)'1m1p
ai因子或潜因子,即前面所说的综合指标;称为因子载荷,是第个变量在第jij
X个公共因子上的负荷;称为的特殊因子。
5.1.3因子分析
(1)确定待分析的原有指标是否适合进行因子分析
本文用于检验指标是否适合于作因子分析的方法是KMO检验和Bartlett球形检验。
当KMO>0.5,Bartlett球形检验的相伴概率值小于0.05时,适合作因子分析。
运用统计软件SPSS进行的KMOandBartlett检验结果如表1。
表1KMOandBartlett检验
KMOandBartlett'sTest
Kaiser-Meyer-OlkinMeasureofSamplingAdequacy..651
Bartlett'sTestofSphericityApprox.Chi-Square420.001
df45
Sig..000
由以上结果可以看出,KMO的值为0.651,大于0.5,而Bartlett检验的值为420.001,相应概率值近似为0.000,在5%的显著性水平下拒绝原假设,认为原有变量间存在关联性。
因此原有指标适合作因子分析。
(2)因子提取,确定描述数据所需要的因子数
首先对数据进行一致化和标准化处理,其中城镇登记失业率是逆指标,所以需要取倒数,进行正向化处理。
接着建立指标间的相关系数阵并求出其特征值和特征向量,同时画出特征值的碎石图,具体结果如下:
表2解释方差总和
-5-
TotalVarianceExplained
ExtractionSumsofSquaredRotationSumsofSquared
InitialEigenvaluesLoadingsLoadings
%ofCumulative%ofCumulative%ofComponentTotalVariance%TotalVariance%TotalVarianceCumulative%
15.18451.84051.8405.18451.84051.8403.61736.17536.175
22.27522.74874.5882.27522.74874.5883.20732.07368.248
31.27412.73887.3251.27412.73887.3251.90819.07787.325
4.7327.32594.650
5.2642.63597.285
6.1571.56998.854
7.058.57699.430
8.034.34199.771
9.017.17399.944
10.006.056100.000
表2显示:
第1个因子的特征值为5.184,大约占去方差的51.840%,基于过程内定取特征值大于1的原则,因子分析过程提取了第1、2、3个因子即F、1F、F,这3个因子共占去方差的87.325%,因此提取3个公因子是完全合理的。
23
并且被放弃的其他7个因子解释的方差占不到20%,更加能够说明前3个因子提供了原始数据的足够信息。
图1因子碎石图
从因子碎石图也明显看出,前3个因子的特征值都大于1,从第4个因子开
-6-
始特征值比较低,都小于1,可以认为前3个因子能概括绝大部分信息。
因此保留3个因子,将一个十维的问题降至三维,这样既减少了指标的数目,又尽可能地保证了整个指标系统的完整。
(3)因子旋转,集中于变换因子使之更好解释
要建立指标的因子模型,关键是要根据指标间的相关系数矩阵估计因子载荷阵。
本文采取主成分法对因子载荷阵进行估计,同时为了知道每个公因子的意义,以便进行较好的解释和命名,再采用最大方差法进行因子旋转,得表3。
表3旋转后的因子载荷阵
Component
123
教育财政支出.090.949-.180
第三产业比重.854-.263-.135
城镇人口比重.851.206-.113
GDP.157.967-.153
社会消费品零售总额.181.954-.175
CPI-.234-.261.901
商品零售价格指数-.189-.149.946
城市居民人均年可支配收入.860.369-.184
农村居民人均年纯收入.884.341-.111
城镇登记失业率.698.077-.191
由上表可看出,旋转后的因子系数很明显地两极分化,有了更鲜明的实际意义。
F中系数绝对值大的主要有:
第三产业比重、城镇人口比重、城镇居民人均1
年可支配收入、农村居民人均年纯收入、城镇登记失业率,这5个指标变量主要是用来反映各地区的城市化发展的;F中系数绝对值大的主要有:
教育财政支出、2
GDP、社会消费品零售总额,这3个指标变量主要用来反映各地区的经济发展、教育事业的投入、居民物质文化生活水平等综合发展状况;而F中系数绝对值3大的主要有:
CPI、商品零售价格指数,这2个因子主要反映了各地区的价格情
-7-
况。
基于以上的分析,对3个公因子进行了命名,如表4:
表4公共因子命名表
公共因子变量累计贡献率城市化发展因子第三产业比重87.325%
城镇人口比重
城市居民人均年可支配收入
农村居民人均年纯收入
城镇登记失业率
经济社会发展因子教育财政支出
GDP
社会消费品零售总额
价格因子CPI
商品零售价格指数
(4)因子得分,计算每一个样本的因子得分
由于公共因子能反映原始指标的相关关系,为便于描述研究对象的特征,需
要用公共因子代表原始变量,即用指标的观测值来计算各个因子得分,其数学模
型为:
j=1,…,m公式2F,bX,bX?
,bXjj11j22jpp
其中,为标准化后的数据。
由SPSS估计出的因子得分系数如下:
Xp
表5因子得分系数矩阵
ComponentScoreCoefficientMatrix
Component
123
教育财政支出-.067.330.037
第三产业比重.293-.185-.002
城镇人口比重.261-.001.085
GDP-.041.337.068
社会消费品零售总额-.035.326.055
CPI.078.056.544
商品零售价格指数.092.103.599
城市居民人均年可支配收入.241.050.063
农村居民人均年纯收入.262.049.112
城镇登记失业率.205-.051-.012从表中可看出,第三产业比重、城镇人口比重、城市居民人均年可支配收入、
农村居民人均年纯收入、城镇登记失业率与第1个因子呈正相关关系,教育财政
-8-
支出、GDP、社会消费品零售总额则与第2个因子呈正相关关系,同样CPI、商品零售价格指数与第3个因子也呈正相关关系。
因此可以把原来的10个指标综合为3个因子,即城市化发展因子、经济社会发展因子、价格因子,这样后面进行的回归方程就简化得多了。
根据以上系数和公式2即可得到对应的F、F、F三个函数,123同时根据各个因子的方差贡献率计算因子的综合得分:
F,(36.175F,32.073F,19.077F)/87.325公式3123
下表是各地区的因子得分:
表6因子得分
地区城市化发展排名经济社会发展排名价格因子F排名综合评排名3
因子F因子F分F12
北京3.853901-0.7321525-0.69505251.182天津1.300343-0.5957124-0.10880170.308河北-0.63789280.651157-0.2314020-0.0813山西-0.4134118-0.3543019-0.2102518-0.3523内蒙古-0.1172611-0.22650150.1759814-0.0915辽宁0.1095270.4718380.6880870.377吉林-0.1583812-0.36641200.2039813-0.1616黑龙江-0.2607615-0.25651160.0513016-0.1918上海2.6526620.2029790.9342451.381江苏0.3038862.2249130.39611121.033浙江0.9495741.207594-0.21529190.795安徽-0.6321526-0.0720412-0.4662224-0.3926福建0.0