101444我国城镇居民不同教育层次的收入与教育回报率差异基于非参数方法和参数方法的估计11.docx-资源下载

101444我国城镇居民不同教育层次的收入与教育回报率差异基于非参数方法和参数方法的估计11.docx

1、101444我国城镇居民不同教育层次的收入与教育回报率差异基于非参数方法和参数方法的估计11我国城镇居民不同教育层次的收入与教育回报率差异基于非参数方法和参数方法的估计张兴祥付中昊林迪珊摘要：文章从中国家庭住户调查（CHIP）2007年的数据中筛选出普高、职高、中专和大专四个教育层次的样本进行比较。利用非参数方法和参数方法，对我国城镇居民不同教育层次的收入与教育回报率进行估计。研究发现，若以小时工资（均值）衡量，普高、职高、中专、大专四个教育层次的收入呈现倒“U”型分布。通过非参核密度估计，我们考察了不同受教育群体在收入分布上的差异，并据此来推测各群体教育回报率上的差异。修正后的最小二乘法

2、回归结果表明，四个教育层次的样本，其教育回报率从高到低排列依次为：中专、职高、大专、普高。分位数回归结果表明，尽管不同教育层次的回报率在各分位点上呈现不同的面貌，但其总体排序基本上与最小二乘法回归的结果一致。关键词：城镇居民教育层次收入差异教育回报率差异一、文献回顾自从Jamison &Gaag（1987）发表了第一篇研究中国教育回报率的文章后，这一领域就成为国内外学者研究的热点。有关中国城镇居民教育回报率的研究，可归结为四个维度：一是研究性别的教育回报率差异，如Maurer-Fazio（1999），Li（2003），陈良焜、鞠高升（2004），刘泽云（2008），黄志岭、姚先国（2009）；

3、二是研究区域、地区或城市的教育回报率差异，如王海港、李实、刘京军（2007），杜两省、彭竞（2010）；三是研究行业或部门的教育回报率差异，如刑春冰（2005），高梦滔、张颖（2007）；四是研究年龄（工龄）的教育回报率差异，如Li &Luo（2002），王明进、岳昌君（2009），娄世艳、罗润东（2009），王美艳（2009）。其中，以研究性别教育回报率差异的文献数量居多，当然，有些文献还兼及多个维度。另外一些文献则专注于研究不同教育层次的工资收入差异。我们知道，在Mincer估计方程中，如果解释变量中的教育项为受教育年限，那么回归结果刻画的将是工资收入与所受教育年限之间的线性关系，但工资收

4、入与教育之间可能存在非线性关系（Brauw&Rozelle，2009），也就是说，不同教育层次可能存在异质性问题，教育回报率并不是随着教育层级增加而呈线性递增的。Psacharopoulos（1985）早期的一项研究发现，绝大部分发展中国家个人教育收益率基本呈现这样一种型式：初等教育的收益率最高，其次是高等教育，中等教育的教育收益率最低。而OECD（1997）针对OECD成员国的一项比较研究表明，不同教育层次的相对收入排序为：大学、非大学的第三级教育、高中、初中。不过改用教育投资的内部回报率衡量，不同教育层次的内部回报率便呈现很大的国别差异和性别差异。例如加拿大男性非大学的第三级教育回报率最高

5、，大学次之，高中最低，而女性大学回报率最高，非大学的第三级教育次之，高中最低；瑞士男性非大学的第三级教育回报率最高，高中次之，大学最低，而女性高中回报率最高，非大学的第三级教育次之，大学最低；澳大利亚男性大学、非大学的第三级教育的回报率无差异且高于高中，而女性高中回报率最高，非大学的第三级教育次之，大学最低；美国、爱尔兰男性、女性均为高中回报率最高，大学次之，非大学的第三级教育最低。可见，在发达国家中，不同教育层次的回报率并不遵循什么固定的型式。那么，中国城镇居民的情况如何呢？不同教育层次之间的教育回报率是否存在差异？教育层次越高，是否意味着教育回报率越高？近期一些文献已针对这个问题展开研究，

6、但得出截然不同的结论。李实、丁赛（2003）利用中国社会科学院经济研究所的城镇住户调查数据（UHS），对1990-1999 年期间我国城镇的个人教育回报率的动态变化进行了经验估计，发现各个文化程度的回报率都是逐年上升的，不同文化程度的教育回报率由高到低依次为大学及以上、大专、中专（包括技校和职高）、高中、初中。Zhang et al（2005）利用城镇住户调查数据（UHS）考察不同教育程度的回报率，由高到低排序依次为大专及以上、技校、高中和初中。罗楚亮（2007）利用2002年城镇住户调查数据（UHS）考察城镇居民的教育回报率及其分布特征，研究结果表明，教育回报率随着收入等级的提高而下降，按教

7、育回报率由高到低排序，依次为大学及以上、大专、高中（中专）、初中。以上研究区分的教育层次虽略有差别，但得出的结论基本一致，即教育回报率随着教育层次的提高而上升。另外，丁小浩等（2012）利用“中国家庭营养与健康”调查数据库（CHNS）5个年份的数据，对21世纪以来中国城镇居民的教育收益率进行估算。该文虽未区分教育层次，但估算结果表明教育年限越高（相当于教育层次的提高），工资水平越高，教育的收益率也越高。不过，李元春（2003）利用2000 年中国35 个城市的抽样数据进行实证分析，回归结果显示大专的回报率最高，其次为大学，再次为高中，硕士最低。戴平生、沈小波（2010）利用中国社会综合调查开放

8、数据库（CGSS）2005年的数据资料对中国省域教育回报率及其影响因素进行实证分析，研究结果发现教育回报率随着受教育程度的提高而下降。鉴于已有文献对不同教育层次的回报率究竟孰高孰低尚无定论，而不同教育层次教育回报率的差异，对政府部门的教育政策实施、家庭以及个人的教育投资决策都有重要的启示，所以，对这个问题仍有再探讨的必要。本文拟从中国家庭住户调查（Chinese Household Income Project，CHIP）2007年的数据中筛选出普高、职高、中专和大专四个教育层次的样本进行比较，重点考察不同教育层次之间收入与教育回报率的差异。CHIP由中国社会科学院、亚洲发展银行、福特基金会

9、和哥伦比亚大学东亚研究所资助，由国家统计局城调总队和中国社会科学院经济研究所共同开展。选用CHIP数据库考察我国城镇教育回报率，主要原因是：（1）该数据库涉及的内容较为全面，有利于相关变量的选取，并从不同的维度加以分析；（2）该数据库覆盖范围广，样本数据从东、中、西三个地区有代表性的城市中采集，所得数据可视为全国范围的数据；（3）该数据库缺失样本较少，在样本整合过程中数据保留较为完整，可信度高。与已有文献不同的是，本文先采用非参数核密度估计考察不同教育层次在收入分布上的差异，并据此来推测各群体教育回报率上的差异，然后再分别使用普通最小二乘法（OLS）回归和条件分位数回归（QR）技术估计各教育层

10、次的回报率，以便互相验证。在接下来的篇幅中，我们作这样的安排：第二部分为估计方法与数据描述；第三部分是非参数核密度估计；第四部分是回归结果分析；第五部分是结论。二、估计方法与数据描述（一）估计方法与研究思路本文分别采取非参数估计和参数估计两种方法。1.非参数估计在非参数估计中，我们采用核密度估计（Kernel Density Estimation）方法，主要用来研究不同教育层次群体收入的概率密度（probability density distribution）分布。之所以采用这种方法，是因为它是对总体概率密度分布的一致估计（consistent estimation），可以直观、准确地描述出

11、各个群体在收入分布上的特点。通过使用这种估计方法，我们得到的结论不再只局限于特定样本，而是实现了对于整个城镇居民群体收入分布的一致估计。定义核方程为，我们选用正态核方程：（1）假设小时工资（或小时工资的自然对数）为变量X，若定义其概率密度分布为，那么其概率密度分布的样本估计的表达式如下：（2）（2）式中，是对的一致估计，这里K代表核密度，h代表带宽（bandwidth），由交叉验证（cross validation）选定，X代表随机变量（random variable），x代表样本，n代表样本容量。2.参数估计在参数估计中，我们分别采用最小二乘法（OLS）和采用分位数（QR）方法进行回归

12、。估计教育回报率最常用的是Mincer收入方程，该方程表示为：（3）Mincer收入方程中，被解释变量为年收入的自然对数；为截矩；表示个体接受教育的年限；表示个体的工作经验年限；为工作经验平方；、分别为各变量的回归系数，其中为教育回报率，即其他条件相同时，每增加一年教育，年收入增加的百分比；为随机误差项。因为我们要考察不同教育层次的回报率差异，所以将以教育层次替代受教育年限进行回归。同时，（3）式为Mincer标准方程，鉴于Mincer标准方程在估计工资收入时可能存在偏差，我们在（3）式的基础上再加入一些控制变量，以降低某些不确定性因素的影响，新的估计方程如下：（4）以年收入来估算教育回报率

13、有可能存在偏差（Brauw & Rozelle，2009），所以对于（3）式、（4）式中被解释变量，我们改用小时工资收入的自然对数来表示，以每小时工资收入来衡量能更准确地体现教育的回报情况。为包含各控制变量的列向量，用于控制性别、婚姻、个体能力、年龄、地区、单位所有制以及产业类型等因素的影响。是由中各元素的系数组成的列向量，为其转置。根据以上两个估计方程，本文先采用最小二乘法，然后再采用分位数回归。不同的回归方法有利于我们多角度地对回归结果进行分析和比较，因为最小二乘法是建立在解释变量下被解释变量的条件均值与的关系的线性模型，通过使残差平方和最小来估计回归参数，但易受极端值的影响；而分位数回归

14、则利用被解释变量的条件分位数来建模，通过最小化加权的残差绝对值之和来估计参数，也即“加权的最小一乘回归”，故不易受极端值的影响，回归较为稳健，更为重要的是，分位数回归还能提供关于条件分布y|x的全面信息。根据（4）式，我们把估计方程改写如下：（5）（5）式中，表示主要解释变量教育层次、工作经验和工作经验平方。代表在给定条件下分位点为的分位数函数（Koenker& Bassett，1978）。、表示各变量的分位点回归系数。在各控制变量中，我们分别选择女性、未婚、26-35岁、东部、私人部门和第二产业作为参照组。（二）数据来源与变量描述本文数据来源于中国家庭收入项目（CHIP）2007年的截面数据

15、。上述（1）-（5）估计方程中，我们选择的样本均为16周岁（1991年以前出生）以上的城镇劳动者，即排除在校学生、家务劳动者、退休人员和无劳动能力者。雇佣劳动者的月平均工资收入包括工资、奖金、津贴和实物折现，自我经营者按净收入计算。在数据处理时，被解释变量小时工资由每月所得收入除以每月工作小时数得到，其中每月所得收入为每月货币性收入与实物折现之和，工作小时数由每月工作周数乘以平均每周工作小时数得到。如有兼职情况，则分别计算兼职收入和工作时间。样本中教育层次由教育年级代码整理获得，我们主要考察普高、职高、中专（包括技校）、大专及以上（包括少量大学本科样本，但不包括研究生，以下简称大专）四个层次。

16、工作经验指从事当前主要工作（现职）的年限，我们用2007年减去从事该职业的起始年份获得。性别、婚姻状况、个体能力、年龄、地区、单位所有制和产业类型等其余变量均为控制变量。性别为虚拟变量，样本为“男性”取1，“女性”取0。婚姻状况为虚拟变量，样本“已婚”取1，“未婚”取0。在校表现为虚拟变量，以“离开学校时在班上的成绩”为依据，样本成绩“好”取1，“不好”取0，用于衡量个体能力。此外，地区、单位所有制、产业类型均为虚拟变量，其中务工所在地分为东部、中部和西部，单位所有制根据调查数据的16个分类归并为国有部门、私有部门和其他部门三大类，产业类型根据调查数据中的20个行业归并为第一、二、三产业三大类

17、。为了使教育回报率的估计更为准确，我们对CHIP2007数据作了删除和整理，去掉缺省值的样本，最后获得的有效样本数为4961，其中普高样本2249，职高样本1593，中专样本825，大专样本94。需要说明的是，由于调查数据由受访者单方面提供，所以可能存在一定的测量误差。（三）描述性统计总样本和分教育层次样本的主要变量描述性统计见表1：表1主要变量的描述性统计样本变量均值标准差中位数最大值最小值样本数总样本小时工资15.78 18.57 12.50 750.00 0.49 4961小时工资对数2.48 0.71 2.53 6.62 -0.71 工作经验11.51 9.85 9.00 42.00

18、0.00 工作经验平方229.42 319.16 81.00 1764.00 0.00 普高小时工资13.51 20.33 9.93 750.00 0.49 2449小时工资对数2.31 0.72 2.30 6.62 -0.71 工作经验12.54 10.56 9.00 42.00 0.00 工作经验平方268.83 350.88 81.00 1764.00 0.00 职高小时工资16.80 14.27 12.50 190.63 1.25 1593小时工资对数2.58 0.68 2.53 5.25 0.22 工作经验11.43 9.44 9.00 42.00 0.00 工作经验平方219.61

19、 300.62 81.00 1764.00 0.00 中专小时工资20.73 20.03 17.19 375.00 0.74 825小时工资对数2.81 0.64 2.84 5.93 -0.31 工作经验8.91 7.96 7.00 41.00 0.00 工作经验平方142.64 235.93 49.00 1681.00 0.00 大专小时工资14.36 10.01 11.25 62.50 3.31 94小时工资对数2.47 0.62 2.42 4.14 1.20 工作经验8.85 7.25 7.00 28.00 0.00 工作经验平方130.40 180.32 49.00 784.00 0.

20、00 由表1可以看出，总样本平均小时工资为15.78元，但最大值与最小值之间相差非常悬殊，前者是后者的1530.6倍。如果分教育层次进行比较，那么中专的平均小时工资最高，达到20.72元，职高、大专次之，分别为16.80元、14.36元，普高最低，只有13.51元。若以小时工资（均值）衡量，普高、职高、中专、大专四个教育层次的收入呈现倒“U”型分布（如图1）。总样本平均工作经验为11.51年，最大值为42年，最小值为0年（不足1年视为0）。分教育层次看，普高、职高、中专、大专的工作经验年限依次递减，四个教育层次最小值均为0，说明各层次的样本中均有新入职者。图1不同教育层次的小时工资（均值）各控

21、制变量的描述性统计见表2：表2各控制变量的描述性统计变量均值标准差变量均值标准差男性0.570.50东部0.490.50已婚0.830.38中部0.310.46在校表现0.650.48西部0.200.4025岁及以下0.110.32国有部门0.560.5026-35岁0.320.47私人部门0.360.4836-45岁0.340.47其他部门0.080.2846-55岁0.200.40第一产业0.010.1156岁及以上0.030.17第二产业0.260.44第三产业0.730.44样本量4961本文在数据处理和回归时使用的软件为Stata 12。三、非参数核密度估计图2给出的是小时工资收入的

22、概率密度分布估计（Kernel Density Estimation Plot）。图2小时工资收入概率密度从图2可以看出，受极端值（outliers）的影响，收入的概率分布向左极度倾斜，这说明对于本文的研究群体来说，高收入者（小时工资大于100元）所占的比例极小。为了消除极端值的影响，我们给小时收入取自然对数并做核估计，如图3所示。图3小时工资对数的概率密度由图3可以看出，小时收入对数呈现近似对称的分布，极端值的影响被消除，不过正态分布检验拒绝了小时工资对数服从正态分布的假设。图4（a）-（d）分别是普高、职高、中专以及大专四个教育群体小时工资的概率密度分布核估计。（a）普高（b）职高（c

23、）中专（d）大专图4四个教育群体小时工资的概率密度从图4小时工资的概率密度分布来看，四个不同教育群体的收入分布都受到了极端值的影响，分布极不对称。而且由于样本数量限制的缘故，极端值部分的概率分布估计存在很大的偏差，这使我们无法直观去比较各个教育群体在概率密度分布上的差异，所以我们改用小时工资对数的概率密度分布核估计来进行比较。图5（a）-（d）分别是四个教育群体小时工资对数的概率密度分布核估计：（a）普高（b）职高（c）中专（d）大专图5四个教育群体小时工资对数的概率密度从图5小时工资对数的概率密度分布核估计结果可以看出，四个不同教育群体的收入分布近似对称，但仍表现出一定的偏态特征，

24、这也是我们在实证分析部分采用最小二乘法回归的同时，又采用分位数回归技术的重要原因。就非参核估计而言，普高群体在收入上的差异最大，肥尾效应（fat-tail）最强。职高群体在概率密度分布上与中专群体相似，但是分位数更低。中专群体总体上收入更高，概率分布更靠右（分位数更高）。大专群体的概率分布更为集中，肥尾效应较弱，说明大专群体在收入上差异性更小。总之，通过对概率密度分布进行非参数估计，我们可以直观地了解各个教育群体在收入分布上的差异。根据概率密度分布核估计的特点，我们可以得出的结论是：（1）不论从均值还是从分位数的角度看，我们推测普高的回报率最低，中专的回报率最高，比较图5（a）-（d）我们不难

25、看出普高群体的收入概率密度分布更靠左，中专群体的收入概率密度分布更靠右；（2）至于职高和大专两个教育群体，虽然我们无法从图中直观地判断其教育回报率的差别，但是我们可以得出的结论是大专教育回报率的波动性（volatility）更小，这意味着大专群体之间的收入差距较小。本文的实证回归结果也印证了这些结论。四、回归结果分析（一）最小二乘法回归我们先用Mincer标准方程回归，再加入控制变量进行回归。考虑到大样本的截面数据往往存在异方差，所以在作最小二乘法回归时，我们直接采用异方差稳健标准差（HeteroskedasticityRobustStandardErrors）方法对异方差进行修正，回归结果

26、见表3：表3修改后的最小二乘法回归被解释变量：小时工资对数解释变量回归（1）回归（2）解释变量回归（2）常数项2.5951* (0.0268)2.5335*(0.0440)25岁及以下-0.0808* (0.0350)普高-0.5485* (0.0261)-0.4466*(0.0251)36-45岁-0.1235*(0.0227)职高-0.2689* (0.0273)-0.1916*(0.0250)46-55岁-0.1642*(0.0303)大专-0.3504*(0.0687)-0.2506*(0.0652)56岁及以上-0.1387*(0.0668)工作经验0.0354* (0.0031)0

27、.0327*(0.0034)中部-0.5160*(0.0208)工作经验平方-0.0007* (0.0001)-0.0006*(0.0001)西部-0.4738*(0.0219)男性0.2187*(0.0177)国有部门0.0855*(0.0203)已婚0.1038*(0.0284)其他部门-0.1311*(0.0346)在校表现0.1144*(0.0191)第一产业0.07(0.0612)第三产业0.02(0.0202)0.11900.2847调整后的0.11810.2821样本量4961注：括号中为系数估计的标准误，*表示系数在1%水平下显著，*表示系数在5%水平下显著，*表示系数在10%

28、水平下显著。由表3可以看出，未加入控制变量，常数项及所有解释变量的系数均在1%水平下显著。在其他条件相同的情况下，普高样本的教育回报率比中专样本低54.85%，职高的样本比中专样本低26.89%，大专样本比中专样本低35.04%。也就是说，四个教育层次的样本，其教育回报率从高到低排列依次为：中专、职高、大专、普高。除产业类型的系数不显著，其他控制变量的系数大部分在1%水平下显著，说明城镇居民的收入还受到其他因素的影响。加入控制变量后，普高、职高、大专样本与中专样本的回报率差距有所缩小，但四个教育层次样本的回报率排序不变。对照表3与表2或图1、图6，我们不难发现，各教育层次的教育回报率与小时工资

29、收入的排序是非常一致的。（二）分位数回归接下来，我们利用分位数回归方法进行回归，回归结果见表4：表4分位数回归被解释变量：小时工资对数解释变量分位点及回归Q=0.1Q=0.25Q=0.5Q=0.75Q=0.9常数项1.8694*(0.0571)2.1471*(0.0537)2.4851*(0.0544)2.8268*(0.0632)3.2837*(0.0865)普高-0.4232*(0.0347)-0.4809*(0.0320)-0.4959*(0.0318)-0.4210*(0.0361)-0.3732*(0.0485)职高-0.2004*(0.0347)-0.2527*(0.0322)-0.2234*(0.0316)-0.1482*(0.0357)-0.1325*(0.0483)大专-0.1959*(0.0824)-0.3358*(0.0804)-0.3432*(0.0793)-0.1760*(0.0894)-0.2350*(0.1159)经验0.0257*(0.0045)0.0326*(0.0041)0.0334*(0.0041)0.0375*(0.0046)0.0347*(0.0065)经验的平方-0.

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？