1、全国各地区流动人口影响因素研究全国各地区流动人口影响因素研究 基于因子分析和多元线性回归模型实证分析 广东外语外贸大学 陈金兰、林哓冰、夏丽华目 录摘 要 - 1 -1.引言 - 2 -2.研究现状及存在的问题 - 2 -3.基本思路及创新 - 3 -4.模型构建前的准备 - 3 -4.1模型假设 - 3 -4.2数据来源 - 3 -4.3指标的选择 - 3 -4.3.1反映经济状况的指标 - 3 -4.3.2反映地区居民生活的指标 - 4 -4.3.3反映公共服务的指标 - 4 -4.4变量的预处理 - 4 -5.模型的建立 - 5 -5.1因子分析模型 - 5 -5.1.1模型的选定 -
2、5 -5.1.2因子分析的数学模型 - 5 -5.1.3因子分析 - 6 -5.2聚类分析模型 - 10 -5.3关联度分析 - 13 -5.4多元回归模型 - 15 -5.4.1模型设定 - 15 -5.4.2参数估计 - 15 -5.4.3计量经济检验 - 15 -5.4.4模型改进 - 16 -6.结论与建议 - 18 -7.模型的不足与改进 - 19 -参考文献 - 19 -附录 - 20 -摘 要:我国的流动人口一直处于增长趋势,到2009年,全国流动人口上升至2.11亿人。政府高度重视流动人口工作,并出台了一系列政策措施。本文运用因子分析、聚类分析等方法构建了流动人口影响因素的多元
3、回归模型,对我国31个省市流动人口的影响因素进行了实证研究。研究结果表明:地区的综合发展水平是人口流动的驱动因素,东部沿海城市是人口最为青睐的流向城市。关键词:流动人口 因子分析 聚类分析 关联度分析 多元回归模型1.引言在中国,流动人口是在户籍制度条件下的一个概念,目前尚无明确、统一的定义。一般是这样认为:流动人口是指离开户籍所在地的县、市或者直辖区,以工作、生活为目的的异地居住的成年育龄人员。随着工业化,城镇化的快速发展,中国进入了人口流动的活跃时期,数据显示,我国正经历人类史上最大规模的人口流动。1982年至2009年,中国流动人口数量由657万上升至2.11亿人【1】。 人口流动具有重
4、大的意义。人口流动能够为人口流入地区提供大量的劳动力,促进地区制造业,服务业等行业的发展,总体上来说,人口流动能够为国家的经济腾飞提供丰富的劳动力,为城市化、现代化顺利发展奠定了基础,调节劳动力的地区分配。但是大量的人口流动相应地引起一些问题:据统计,2009年中国流动人口平均年龄为27.3岁,流动人口中78.7%为农业户口,以青壮年为主。大部分流动人口的文化程度比较低。而大量的流动人口流入地区,势必引起人口流入地区的交通,教育,环境等问题,在制度还不完善的情况下,流动人口的医疗,保险等社会保障严重缺乏。即使近年来国家出台一系列加强流动人口服务管理的重大决策,但大规模的人口流动会给地方政府的管
5、理带来严峻的挑战。如果能够建立关于流动人口与地区发展状况的模型,利用模型来研究流动人口与地区发展的关系,并初步预测流动人口,将对国家对流动人口的有序引导,地区对流动人口的管理有重大的意义。2.研究现状及存在问题现阶段关于流动人口的文献可分为两大方面,一方面是关于流动人口现状的分析报告,另一方面是关于流动人口预测的模型。流动人口预测的模型是人口预测的一大难题,目前还没有一种可以用于不同地区的基本办法。西方关于人口流动预测模型比较完善的是托达罗模型,但是由于模型只表明了决定迁移的因素和关系,并没有表达出被解释变量与各因素之间明确的函数关系,所以没有得到广泛应用2。在国内,有学者曾经利用地区流动人口
6、占常住人口的比例来建立流动人口预测模型,但是由于常住人口也是经常变动,数据获取难度大,也没有得到推广。很多学者在流动人口预测方面做了大量的研究,但是,可以发现存在一个问题。大多数文献都有提到,人口流动受到许多因素的影响和制约,多因素法是最理想的办法,若能建立流动人口与各社会因素之间的一种线性或非线性模型,便能在充分考虑各种影响因素的基础上预测流动人口规模的变化,但是难度很大。纳入模型的影响因素的选择和影响因素数据的获取等各个方面的困难,使该方面的研究停滞不前。3.基本思路及创新通过收集资料,确定流动人口的主要因素,即指标,对所选择的指标进行因子分析。接着,利用因子分析提取的主要因子与流动人口进
7、行关联度分析,计算其关联度,若关联度高,则用流动人口对主要因子进行回归分析,得到各个地区的发展状况与流动人口之间关系的模型。在模型建立过程中,利用聚类辅助分析流动人口的地域差异。指标的选取原则为:尽可能全面,简洁,可获性,科学性,系统性。本文的创新之处在于,在研究人口流动与多因素之间的关系的时候,采用因子分析,聚类等方法对数据处理后建立线性或者非线性模型。本着大胆假设,小心求证的精神,建立人口预测模型,定量分析流动人口。4.模型构建前的准备4.1模型假设(1)流动人口的定义:由于流动人口至今都没有一个统一的统计口径,所以无法找到直接反映我国流动人口的数据。本文将户口在外地,住在本地区半年以上的
8、人员(包括户口待定的人员)作为流动人口。(2)假定各个地区在短期内,发展状况稳定。所以可选取2009年的数据来反映短期内地区的发展状况。4.2数据来源本文的流动人口数据是根据2009年全国各地区分性别、户口登记状况的人口推算而得的。推算方法是将住本乡、镇、街道,户口在外地半年以上人口加上住本乡、镇、户口待定人口,再除以0.873的抽样比。所得2009年全国各地区流动人口数见附录。4.3指标的选择4.3.1反映经济状况的指标地区间的经济状况差异会引起流动人口,由最近几年关于流动人口的新闻报道中可以看出,地区发展越好,该地区的流动人口越多。本文选取地区GDP以反映地区的该地区的经济表现,选取地区的
9、社会消费品零售总额以反映该地区购买能力的实现,选取地区的第一产业生产总值,第二产业生产总值,和第三产业生产总值分别占国民生产总值的比重以反映该地区的经济结构。4.3.2反映地区居民生活的指标地区的居民生活状况也是人口流动的成因之一,人们都是向往美好的生活的。本文选取城镇居民人均年可支配收入和农村居民人均年纯收入以反映城乡居民间的收入差异。选取CPI和商品零售价格总指数来反映地区的消费水平。选取城镇人口比重来反映该地区目前的城镇化水平。该地区的流动人口的就业程度可以反映地区对流动人口的容纳情况,可是由于流动人口各个方面的数据难以统计,所以文章选取逆向指标城镇登记失业率,来反映该地区的就业情况。4
10、.3.3反映公共服务的指标根据中国流动人口发展报告中对当前流动人口生存发展的基本状况分析中可以得知,我国流动人口家庭的平均规模为2.3人,67.4%为夫妻/子女一起居住。而流动人口的子女中,70.2%为流动儿童,29.8%为留守儿童。因此大胆推断,流动人口的子女就学等问题也是流动人口的影响因素之一,所以选取地区的教育财政支出来反映该地区的教育事业发展程度。综合各个方面的考虑,选取的指标有:GDP、社会消费品零售总额、第一产业生产总值,第二产业生产总值,和第三产业生产总值分别占国民生产总值的比重、城镇居民人均年可支配收入、农村居民人均年纯收入、CPI、商品零售价格指数、城镇人口占全国人口的比重、
11、城镇登记失业率、教育财政支出。4.4变量的预处理对各个指标进行无量钢化处理,即数据标准化,消除单位的影响。通过对数据的预分析,发现第一产业总值所占比重和第二产业所占比重对流动人口的影响较小。根据中国流动人口发展报告,三大产业是流动人口就业的主要领域:制造业、批发零售业和社会服务业吸纳了近七成流动人口就业,第三产业从业比重超过第一、第二产业之和。所以,从指标中删除第一产业所占比重和第二产业所占比重。经过预处理,确定本文分析的变量为标准化处理后的流动人口、GDP、社会消费品零售总额、第三产业生产总值比重、城镇居民人均年可支配收入、农村居民人均年纯收入、CPI、商品零售价格指数、城镇人口比重、城镇登
12、记失业率、教育财政支出。5.模型的建立5.1因子分析模型5.1.1模型的选定一般而言,在四维或者更多维度的空间进行数据分析和处理是一件很困难的事。但如果能够把维度降下来,在低维空间中对数据进行解释比在高维空间就容易得多。而且在大多数情况下,许多变量之间存在一定的相关关系,这就为用较少的综合性指标来描述和反映原有变量中所包含的信息提供了可能。因此对本文选取的影响全国各地区流动人口的10个变量进行降维处理,形成少数独立的、不相关的综合指标来进行数据解释是很有必要的。这样一方面减弱了变量之间的多重共线性,另一方面也在一定程度上减少了数据分析和采集的工作量。因子分析过程实际上就是降维处理的过程,是一种
13、用少数几个因子来描述许多指标或因素之间的联系和反映原有资料的大部分信息的多元统计分析方法。因子分析是主成分分析的推广和发展,它既能客观计算出一个可供评价的综合得分,又克服了主成分分析无法直接得到分化的指标载荷,不便于选取指标的缺点。同时,因子分析模型的整个处理过程基本是客观的,结果可以进行统计检验。通过以上分析,本文选取因子分析模型来对10个变量进行降维处理,建立流动人口的统计指标体系。5.1.2因子分析的数学模型本文在建立流动人口指标体系过程中采取的因子分析的数学模型如下: 公式1其中,是原有的个指标,称为的公共因子或潜因子,即前面所说的综合指标;称为因子载荷,是第个变量在第个公共因子上的负
14、荷;称为的特殊因子。5.1.3因子分析(1)确定待分析的原有指标是否适合进行因子分析本文用于检验指标是否适合于作因子分析的方法是KMO检验和Bartlett球形检验。当KMO0.5,Bartlett球形检验的相伴概率值小于0.05时,适合作因子分析。运用统计软件SPSS进行的KMO and Bartlett检验结果如表1。表1 KMO and Bartlett检验KMO and Bartletts TestKaiser-Meyer-Olkin Measure of Sampling Adequacy.651Bartletts Test of SphericityApprox. Chi-Squa
15、re420.001df45Sig.000由以上结果可以看出,KMO的值为0.651,大于0.5,而Bartlett检验的值为420.001,相应概率值近似为0.000,在5%的显著性水平下拒绝原假设,认为原有变量间存在关联性。因此原有指标适合作因子分析。(2)因子提取,确定描述数据所需要的因子数首先对数据进行一致化和标准化处理,其中城镇登记失业率是逆指标,所以需要取倒数,进行正向化处理。接着建立指标间的相关系数阵并求出其特征值和特征向量,同时画出特征值的碎石图,具体结果如下:表2 解释方差总和Total Variance ExplainedComponentInitial Eigenvalue
16、sExtraction Sums of Squared LoadingsRotation Sums of Squared LoadingsTotal% of VarianceCumulative %Total% of VarianceCumulative %Total% of VarianceCumulative %15.18451.84051.8405.18451.84051.8403.61736.17536.17522.27522.74874.5882.27522.74874.5883.20732.07368.24831.27412.73887.3251.27412.73887.3251.
17、90819.07787.3254.7327.32594.6505.2642.63597.2856.1571.56998.8547.058.57699.4308.034.34199.7719.017.17399.94410.006.056100.000表2显示:第1个因子的特征值为5.184,大约占去方差的51.840%,基于过程内定取特征值大于1的原则,因子分析过程提取了第1、2、3个因子即F1、F2、F3,这3个因子共占去方差的87.325%,因此提取3个公因子是完全合理的。并且被放弃的其他7个因子解释的方差占不到20%,更加能够说明前3个因子提供了原始数据的足够信息。图1 因子碎石图从因子
18、碎石图也明显看出,前3个因子的特征值都大于1,从第4个因子开始特征值比较低,都小于1,可以认为前3个因子能概括绝大部分信息。因此保留3个因子,将一个十维的问题降至三维,这样既减少了指标的数目,又尽可能地保证了整个指标系统的完整。(3)因子旋转,集中于变换因子使之更好解释要建立指标的因子模型,关键是要根据指标间的相关系数矩阵估计因子载荷阵。本文采取主成分法对因子载荷阵进行估计,同时为了知道每个公因子的意义,以便进行较好的解释和命名,再采用最大方差法进行因子旋转,得表3。表3 旋转后的因子载荷阵Component123教育财政支出.090.949-.180第三产业比重.854-.263-.135城
19、镇人口比重.851.206-.113GDP.157.967-.153社会消费品零售总额.181.954-.175CPI-.234-.261.901商品零售价格指数-.189-.149.946城市居民人均年可支配收入.860.369-.184农村居民人均年纯收入.884.341-.111城镇登记失业率.698.077-.191由上表可看出,旋转后的因子系数很明显地两极分化,有了更鲜明的实际意义。F1中系数绝对值大的主要有:第三产业比重、城镇人口比重、城镇居民人均年可支配收入、农村居民人均年纯收入、城镇登记失业率,这5个指标变量主要是用来反映各地区的城市化发展的;F2中系数绝对值大的主要有:教育财
20、政支出、GDP、社会消费品零售总额,这3个指标变量主要用来反映各地区的经济发展、教育事业的投入、居民物质文化生活水平等综合发展状况;而F3中系数绝对值大的主要有:CPI、商品零售价格指数,这2个因子主要反映了各地区的价格情况。基于以上的分析,对3个公因子进行了命名,如表4:表4 公共因子命名表公共因子变量累计贡献率城市化发展因子第三产业比重87.325%城镇人口比重城市居民人均年可支配收入农村居民人均年纯收入城镇登记失业率经济社会发展因子教育财政支出GDP社会消费品零售总额价格因子CPI商品零售价格指数(4)因子得分,计算每一个样本的因子得分由于公共因子能反映原始指标的相关关系,为便于描述研究
21、对象的特征,需要用公共因子代表原始变量,即用指标的观测值来计算各个因子得分,其数学模型为: j=1,m 公式2其中,为标准化后的数据。由SPSS估计出的因子得分系数如下:表5 因子得分系数矩阵Component Score Coefficient MatrixComponent123教育财政支出-.067.330.037第三产业比重.293-.185-.002城镇人口比重.261-.001.085GDP-.041.337.068社会消费品零售总额-.035.326.055CPI.078.056.544商品零售价格指数.092.103.599城市居民人均年可支配收入.241.050.063农村居
22、民人均年纯收入.262.049.112城镇登记失业率.205-.051-.012从表中可看出,第三产业比重、城镇人口比重、城市居民人均年可支配收入、农村居民人均年纯收入、城镇登记失业率与第1个因子呈正相关关系,教育财政支出、GDP、社会消费品零售总额则与第2个因子呈正相关关系,同样CPI、商品零售价格指数与第3个因子也呈正相关关系。因此可以把原来的10个指标综合为3个因子,即城市化发展因子、经济社会发展因子、价格因子,这样后面进行的回归方程就简化得多了。根据以上系数和公式2即可得到对应的F1、F2、F3三个函数,同时根据各个因子的方差贡献率计算因子的综合得分: 公式3下表是各地区的因子得分:表
23、6 因子得分地区城市化发展因子F1排名经济社会发展因子F2排名价格因子F3排名综合评分F排名北京3.853901-0.7321525-0.69505251.182天津1.300343-0.5957124-0.10880170.308河北-0.63789280.651157-0.2314020-0.0813山西内蒙古-0.4134118-0.3543019-0.2102518-0.3523-0.1172611-0.22650150.1759814-0.0915辽宁0.1095270.4718380.6880870.377吉林-0.1583812-0.36641200.2039813-0.1616
24、黑龙江-0.2607615-0.25651160.0513016-0.1918上海2.6526620.2029790.9342451.381江苏0.3038862.2249130.39611121.033浙江0.9495741.207594-0.21529190.795安徽-0.6321526-0.0720412-0.4662224-0.3926福建0.084388-0.1541914-1.3062927-0.3122江西-0.4660518-0.3384219-0.3453518-0.3923山东-0.30460162.2709420.6900660.864河南-0.92062311.127
25、7450.06072150.0512湖北-0.45875220.1737510-0.3567622-0.2019湖南-0.42487190.1149411-0.4253623-0.2321广东0.3563252.456481-1.59994280.706广西-0.7458630-0.4640621-1.7342330-0.8630海南0.016939-1.3554530-0.7552626-0.6628重庆-0.4470320-0.7522926-1.7520531-0.8429四川-0.63735270.7090861.0450930.229贵州-0.7311029-1.0727529-1.
26、6742028-1.0631云南-0.5614325-0.30284170.630499-0.2120西藏-0.0760210-1.46837310.5999310-0.4427陕西-0.4543921-0.14441130.672558-0.0914甘肃-0.3484617-0.54001231.8354620.0611青海-0.1624413-0.80016272.4843210.1810宁夏-0.1744914-1.13091290.4728511-0.3824新疆-0.4942124-0.48389220.935304-0.18175.2聚类分析模型根据因子分析的结果,可初步看出各个因
27、子对流动人口的影响。但是逐个地区去分析很耗费人力物力,是不科学的。较好的做法是选取几个指标对31个地区进行分类,然后根据分类结果对各地区的流动人口进行综合评价,就易于得出科学的分析。为了了解各地区具体的流动人口情况,并进一步证实所选取的10个指标对不同流动人口的巨大影响,同时为后面进行的回归方程提供可行性依据,本文根据因子分析提取的3个公因子对各地区进行层次聚类分析,具体结果如下:图2 聚类分析的树状图综合以上分析的结果,把地区分成3类,列表如下:表7 地区分类表类别地区流动人口数(人)类别地区流动人口数(人)1北京79358533四川5182131上海5674685辽宁31615122广东2
28、7810997河南2026346浙江8902635河北4431844山东4171821新疆1008018江苏9317297陕西23230243青海506300云南2269187甘肃599084黑龙江3726231福建7017182吉林1623139贵州2400916内蒙古3000000重庆2402062江西2568156广西2065292山西2609393天津1485682安徽3066438海南719359湖南2138603宁夏565865湖北2981672西藏10309由表7可看出,不同类别地区的流动人口有明显的差异。首先第一类地区是北京和上海,这两个地区的综合评分分别排名第1和第2,但它们的流动人口数却没有第二类的地区大。主要是因为北京和上海的城市发展水平因子得分远高于其它城市,这是吸引流动人口的决定性因素
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1