灰色收入与国民收入分配.docx
《灰色收入与国民收入分配.docx》由会员分享,可在线阅读,更多相关《灰色收入与国民收入分配.docx(45页珍藏版)》请在冰豆网上搜索。
灰色收入与国民收入分配
灰色收入与国民收入分配*
王小鲁
前言
2005-2006年,我们在全国各地几十个不同规模城市进行了城镇居民收入与消费调查。
在此基础上,2007年作者发表了题为《我国的灰色收入与居民收入差距》的研究报告。
在这个报告中,作者推算我国在2005年的城镇居民可支配收入中,有4.8万亿元没有反映在居民收入统计数据中的隐性收入,主要发生在高收入阶层。
作者认为这些隐性收入的大部分属于“灰色收入”。
作者通过对城镇居民分组收入数据进行校正,发现在包括了隐性收入后,城镇最高收入和最低收入各10%家庭之间的收入差距从9倍扩大到了31倍;全国居民最高收入和最低收入各10%家庭之间的收入差距从21倍扩大到了55倍。
这意味着我国国民收入的分配失衡比过去所普遍了解的情况更加严重。
该报告还根据家用汽车拥有量、商品住宅销售量、私人出境旅游的人次数、以及银行存款的分布数据,从不同角度对居民收入(主要是高收入居民的收入)进行了估计,从而对上述推算结果进行了交叉验证。
同时也对灰色收入的来源进行了一些初步分析,认为这主要是由于体制上的缺陷造成的,因此迫切需要推进体制改革来解决国民收入分配失衡问题。
上述推算的方法和结果是否可信?
经过几年之后,国民收入分配状况发生了哪些变化?
为了回答这些问题,我们于2009年再次组织进行了城镇居民家庭收支调查(采集的数据为2008年全年数据),并在调查数据的基础上进行了新的研究分析。
本报告就这次调查的范围、调查和分析方法、以及研究结果进行陈述,并在此基础上进一步分析国民收入分配失衡的现象和所需要的应对措施。
本报告的第一部分报告我们的城镇居民收入调查方法和样本分布情况。
第二部分讲述分析方法,报告技术分析的结果。
第三部分在调查数据和技术分析的基础上,推算我国城镇居民可支配收入的真实水平和真实的收入差距。
第四部分是对灰色收入来源的进一步分析。
第五部分分析灰色收入对国民收入分配格局的影响。
第六部分是本报告的结论。
一、城镇居民收入调查方法和样本分布
1.如何获得真实的调查数据
作者认为,目前关于居民收入的统计调查数据存在重大失真。
特别是关于城镇高收入居民的可支配收入,失真非常严重。
这并不是指统计调查方法或计算的错误。
目前的城镇和农村居民住户调查样本,是根据统计学的随机抽样方法确定的。
这一方法本身并不存在系统性的错误。
但必须注意到以下情况:
1.现行的住户调查抽样是基于自愿原则确定的,但高收入居民中有相当大比例不愿意接受调查,导致在抽样过程中被迫更换样本,因此在样本更换过程中发生了对高收入居民的遗漏。
2.包括在调查样本中的高收入居民中,有许多人不愿意提供他们的真实收入信息。
在他们报告的收入中,工资性收入的真实程度较高,而其他收入可能偏低;特别是其中一些人有大量不愿暴露、来源不明的“灰色收入”。
这部分收入基本上不可能反映在收入调查数据中。
以上原因使统计调查发生系统性偏差,无法真实地反映居民收入分配状况。
这一问题,很难在现有的住户统计样本和现有的调查方法范围内得到彻底解决,需要探索另外的途径。
基于这一原因,我们研究的首要目的是取得关于居民收入的真实数据。
在2005-2006年调查中,我们借鉴了社会学调查方法,由各地的专业调查人员对他们熟悉的亲属、朋友、同事、邻里的家庭收支状况进行了调查。
我们还采取了若干辅助措施保证调查数据的真实性。
事实证明这一方法是可行的,调查取得的数据具有比较高的可信度。
在2009年调查中,我们使用了同样的调查方法,但采取了更严格的质量控制措施,并扩大了调查样本。
必须说明,由于这一调查方法不同于随机抽样方法,因此我们无法直接用这个调查样本的数据来推算我国城镇居民收入的总体分布状况,而必须借助于其他方法进行推算。
关于推算方法,将在本报告第二部分中详细介绍。
本部分的主要目的是对调查方法和样本分布状况进行说明。
在调查之前,我们对各地调查人员进行了问卷和调查方法培训。
为了消除受访者可能的疑虑,调查问卷采取无记名方式,在调查开始前向受访者提供了调查结果只用于研究的承诺和样本数据保密承诺。
在调查方法上,也采取了若干降低调查敏感度和有利于获得真实数据的措施。
例如,关于调查目的,主要强调研究消费结构而不是强调研究收入水平;在问卷设计上,先问消费问题后问收入问题,先问具体分项后问消费和收入总额。
在收入来源方面,问卷只要求回答简单的收入分类(包括工资性收入、兼职和劳务收入、实体经营收入、金融投资收入、财产性收入、知识产权收入、各类转移收入、和未包括在以上各项的其他收入),不要求回答具体收入来源。
在访问结束后,要求调查员填写他们与受访者的关系,以及他们对问卷调查结果可信程度(包括可能的偏差方向和偏差程度)的个人估计,作为问卷的参考信息。
调查完成后,我们对问卷进行了全面的质量检查。
除了对信息完整性和调查地点正确性进行核对外,我们设计了一套检查程序,对各问题之间的逻辑关系,以及各项收入和消费数据之间的数量关系,进行合理性检查,对质量不符合要求的问卷(包括信息遗漏、涂改、数据反常、不同信息之间存在逻辑错误而又无法鉴别正确信息等等问题的数量超过标准,以及调查对象不属于城镇居民)和信息真实性值得怀疑的问卷做了剔除。
2.调查样本的分布状况
本次调查在全国19个省份(包括直辖市)的64个不同规模城市,以及14个县的县城和建制镇进行,
省份(括直辖市)包括北京、上海、山东、江苏、浙江、广东、山西、河南、湖北、安徽、江西、辽宁、黑龙江、四川、重庆、云南、陕西、甘肃、青海。
这保证了东部、中部、西部和东北地区都有一定数量的样本分布,并照顾了南北方的分布。
城市包括北京、上海、济南、南京、杭州、广州、太原、郑州、武汉、合肥、南昌、沈阳、哈尔滨、成都、重庆、昆明、西安、兰州、西宁、深圳、青岛、苏州、大同、鞍山、抚顺、齐齐哈尔、大庆、徐州、扬州、阜阳、芜湖、六安、日照、襄樊、宜昌、东莞、中山、绵阳、忻州、开封、三门峡、驻马店、孝感、宜都、邳州、富阳、金华、绍兴、韶关、巢湖、滁州、赣州、吉安、景德镇、九江、丹东、铁岭、牡丹江、西昌、咸阳、白银、嘉峪关、天水、玉溪。
其中直辖市、省会城市和“副省级”城市有21个,规模较小的地级和县级城市有43个,在不同规模城市之间保证了较为均衡的分布。
县城和建制镇所在的县份包括山西省繁峙县、江苏省沛县、浙江省象山县、山东省平原县、齐河县、河南省滑县、湖北省大悟县、重庆市垫江县、开县、忠县、陕西省咸阳市礼泉县、甘肃省皋兰县、泾川县、青海省民和县。
这些县份的地理分布也是较为均衡的。
这次调查选取的城市数量较多,而样本在各城市的分布比较分散,这是基于两个考虑:
首先,一个城市样本数量过多,就无法保证调查样本家庭都是专业调查人员所熟悉的家庭,与本次调查方案的初衷相悖。
其次,样本中包括较多的城市,也保证了样本具有更好的代表性。
我们的调查方法也存在缺点。
一个主要问题是,该调查是一次性进行的,关于受访者家庭收入和消费的数据都是由受访者根据记忆提供(但在选取受访者的过程中,已经排除了对家庭收入和消费状况不够了解的家庭成员)。
与记账式的抽样调查相比,这会产生较大的数据误差。
但记账式调查不仅比一次性调查成本高、耗时长、难度大,而且由于调查内容具有敏感性,更容易导致系统性偏差。
而一次性调查因记忆不准确造成的数据误差,一般而言是随机分布的,而不是系统性的。
在样本平均的意义上,随机性误差会因正负互相抵消而大大减少,而系统性偏差是无法自动抵消的。
因此基于本课题的研究目和研究条件,都必须采取一次性调查的方式。
本次调查总共包括样本家庭4909个,经过严格的质量检验,剔除问卷质量不符合要求的689个样本,另有25个负收入样本未包括在分析中(因为分析表明,他们大部分在正常情况下不属于低收入家庭,负收入主要是临时性经营亏损造成的),实际分析采用有效样本4195个。
表1列出了全部调查样本和有效样本的地区分布、按城市规模的分布、受访者年龄和户籍状况分布、样本家庭最高收入者的文化程度分布、受访家庭的人均可支配收入分布等情况。
可以看到,样本在全国不同区域之间、不同规模的城市之间、以及受访者的年龄、文化程度的分布是比较均衡的;但居住在较大规模城市、具有较高学历、以及从事经营性活动和白领职业的人群所占比重,高于这些人群在全国城镇人口中的相应比重。
这是因为根据作者2007年研究报告的结果,城镇居民收入水平的统计偏差主要发生在高收入居民。
为了保证有足够数量的高收入居民样本以进行分析,在调查中有意识地增加了这部分人群的样本数量。
我们使用的分析方法,将保证这种分布的差异不会影响到对全国城镇居民人均收入分布的推算结果。
表1.按各种分组的样本分布状况
1、按地区分布
样本总数
样本总数分布
有效样本数
有效样本分布
东部地区
1863
37.95%
1563
37.26%
中部和东北地区
1848
37.65%
1605
38.26%
西部地区
1198
24.40%
1027
24.48%
合计
4909
100.00%
4195
100.00%
2、按城市规模分布
样本总数
样本总数分布
有效样本数
有效样本分布
200万人以上城市
2495
50.83%
2083
49.65%
100-200万人城市
915
18.64%
789
18.81%
100万人以下城市
995
20.27%
889
21.19%
县城、建制镇
504
10.27%
434
10.35%
合计
4909
100.00%
4195
100.00%
3、受访者年龄分布
样本总数
样本总数分布
有效样本数
有效样本分布
20-29
1647
33.55%
1411
33.64%
30-39
1383
28.17%
1196
28.51%
40-49
1236
25.18%
1062
25.32%
50-59
520
10.59%
425
10.13%
60及以上
123
2.51%
101
2.41%
合计
4909
100.00%
4195
100.00%
4、受访者户籍分布
样本总数
样本总数分布
有效样本数
有效样本分布
本市城镇
4457
90.79%
3808
90.77%
外地城镇
276
5.62%
234
5.58%
外地农村
156
3.18%
138
3.29%
漏答
20
0.41%
15
0.36%
合计
4909
100.00%
4195
100.00%
5、家庭最高收入者文化程度
样本总数
样本总数分布
有效样本数
有效样本分布
小学或以下
165
3.36%
136
3.24%
初中
970
19.76%
832
19.83%
高中(包括同等学历)
1833
37.34%
1565
37.31%
大专、大学本科
1822
37.12%
1569
37.40%
硕士、博士
82
1.67%
74
1.76%
漏答或无法确定
37
0.75%
19
0.45%
合计
4909
100.00%
4195
100.00%
6、家庭最高收入者职业
样本总数
样本总数分布
有效样本数
有效样本分布
一般专业技术人员
396
8.07%
353
8.41%
中高级专业技术人员
262
5.34%
227
5.41%
其他专业人员(科教文卫等)
339
6.91%
302
7.20%
党政军机关一般干部
193
3.93%
165
3.93%
党政军机关中高级干部
52
1.06%
47
1.12%
企事业单位、社团职员
561
11.43%
483
11.51%
企事业中层以上管理者
327
6.66%
268
6.39%
服务人员
317
6.46%
277
6.60%
工人
659
13.42%
562
13.40%
个体工商户、自由职业者
1008
20.53%
853
20.33%
私企所有者、合伙人、股东
317
6.46%
277
6.60%
其他职业
73
1.49%
66
1.57%
学生、研究生
20
0.41%
17
0.41%
无职业(括退休退职人员)
349
7.11%
278
6.63%
漏答或无法确定
36
0.73%
20
0.48%
合计
4909
100.00%
4195
100.00%
注:
城市规模按市区常住人口计算。
二、分析方法和技术分析结果
1.本报告使用的基本推算方法—恩格尔系数法
根据调查样本数据推算城镇居民可支配收入的方法可以概述如下:
首先,我们进行城镇居民收入调查的目的,并不是为了从调查样本直接推断城镇居民的总体收入分布状况,而是在真实可信的数据基础上,推算收入水平与若干消费特征参数之间的关系。
其中一个关键的消费特征参数就是恩格尔系数(即居民家庭的食品消费支出占家庭消费支出总额的比例)。
恩格尔系数是一个与收入水平相关的参数,其下降趋势能够反映收入水平的上升;这在经济学界是一个公认的事实。
这是因为在满足了基本的温饱需求之后,居民会逐渐转向追求其他需求的满足,例如对出行和通信联络的需求、对奢侈品的需求、以及教育、文化娱乐等较高层次的需求。
因此随着收入水平提高,居民用于食品的支出增量会递减,而用于某些较高层次消费的支出增量会递增,使它们在消费总量中的比例发生改变。
基于这个原理,我们可以基于一个比较可信、比较有代表性的调查样本,来计算居民家庭的恩格尔系数和人均可支配收入水平,并使用统计学或计量经济学方法,找出两者间的统计关系。
依据得到的这些关系,我们可以对任意一组居民收入统计数据进行检验。
也就是说,只要我们能够得到某一组统计样本的相对可靠的恩格尔系数,就可以依据该系数近似推算出该组居民的真实人均收入水平。
因此,我们可以根据国家统计局的分组城镇住户的恩格尔系数,推算这些组别的平均收入水平,并将这些推算结果与公布的该组居民收入水平统计数据进行比较,以发现统计数据是否存在系统性的误差,以及这一误差有多大。
我们称这一分析方法为“恩格尔系数法”。
当然,这样做的前提,是要求分组统计样本的恩格尔系数真实可信。
一个自然会遇到的问题是,如果某一组居民的收入水平统计数据存在系统性偏差,他们的恩格尔系数数据会不会同样有系统性偏差呢?
事实上,如果收入数据存在偏差(例如,被低估),那么消费和商品消费支出数据很可能也存在一定的偏差。
但首先,只要消费支出和食品消费支出的偏差是同方向的,并在统计意义上大体上保持同比例,那么分组平均的恩格尔系数仍然是基本可信的。
在这种情况下,我们仍然可以使用恩格尔系数来推算真实收入水平。
其次,即使消费支出和食品消费支出的偏差不保持同比例,在计算恩格尔系数时,同方向的偏差仍然可以在很大程度上互相抵消,使恩格尔系数的偏差远远小于收入水平的偏差。
因此仍然可以用来推算收入水平,只是推算结果的准确程度较低。
根据作者2007年的研究,发现在居民收支统计数据中,高收入居民的收入水平数据偏差最大,明显低于他们的真实收入。
他们的消费支出和食品消费支出也都存在一定程度的低估,但在程度上远远小于收入的偏差。
其中食品支出的偏差比消费支出总额的偏差更小些。
这也就是说,据此计算的恩格尔系数可能轻微偏高,因而根据这些恩格尔系数推算的收入水平有可能轻微偏低;但仍然可以在很大程度上校正原来的收入数据偏差。
不过,我们也需要知道,我们所得到的收入水平校正结果,相比于真实收入,可能或多或少仍在一定程度上偏低。
还要注意到,使用这一方法对居民收入统计数据进行检验,并不能在数量上确定统计样本对高收入居民遗漏的情况,只能对现有统计样本收入数据的系统性偏差进行校正。
因此校正之后的结果,仍然可能在一定程度上低估高收入居民的收入水平(由于样本遗漏的原因)。
以下,作者采取两种具体方法建立恩格尔系数与收入水平之间的关系,并对居民收入统计数据进行检验。
这两种方法都属于恩格尔系数法,但分析手段和过程不同。
在下面的叙述中,为简化起见,作者将“人均可支配收入”称为“人均收入”;将国家统计局的城镇居民住户调查样本称为“统计样本”,而将我们这次调查的样本称为“调查样本”;来自统计样本的人均收入将称为“统计收入”,而根据调查样本提供的参数及其与统计数据的比较结果推算的人均收入称为“推算收入”;以示区别。
2.分组比较法
第一种具体推算方法可以称为分组比较法。
在2007年研究报告中,作者采用的就是这个方法。
其步骤如下:
第一步,分别计算全部调查样本的人均收入和恩格尔系数。
第二步,计算统计样本的分组恩格尔系数。
国家统计局每年公布的城镇居民分组收入数据,是按人均收入,将全国城镇居民家庭分为七组。
其中最低收入、(次)低收入、最高收入、(次)高收入这四组分别是按十等份划分的,即每组各占10%的城镇家庭。
中间三组(中低收入、中等收入、中高收入组)是按五等份划分的,每组占20%的城镇家庭。
这七组的平均恩格尔系数都是可计算的。
根据本文前面的解释,我们假定统计样本的恩格尔系数是可信的。
第三步,将全部有效调查样本按人均收入排序,从低到高进行分组。
分组方法是,从最低收入开始,将样本逐个累加,直到该组的平均恩格尔系数与“统计样本最低收入组”的平均恩格尔系数相等为止。
我们称这一组样本为“调查样本最低收入组”。
这个分组过程不考虑样本数量。
然后开始对“调查样本低收入组”进行分组,方法相同,也是使其平均恩格尔系数与“统计样本低收入组”(即第二个10%的城镇住户)相同。
其余各组的分组方法类推。
第四步,分别计算调查样本各组的人均收入平均水平。
根据前面解释的理由,我们假定一组居民的恩格尔系数与他们的收入水平具有唯一的对应关系。
也就是说,给定某组居民一个恩格尔系数,则该组的人均收入就应当是我们计算得到的、对应于这个恩格尔系数的人均收入。
第五步,将各组调查样本与对应的统计样本人均收入进行对比,其差异就反映出统计样本的数据遗漏。
表2是调查样本和统计样本的分组分布情况。
可以看到在取了同样的恩格尔系数之后,调查样本的各组分布比例是不一样的。
还可以看到,根据恩格尔系数分为七组之后,还有一部分人均收入更高的调查样本被留在了这七组之外(因为其恩格尔系数更低)。
这一组的人均可支配年收入都超过40万元,最高为176万元。
表3是调查样本和统计样本恩格尔系数和人均收入的对比结果。
表2.调查样本的分组分布及与统计样本分布的比较
调查样本
统计样本
分组
区间
有效样本数
分布比例
分布比例
最低收入
1-7,000元
365
8.7%
10%
低收入
7,001-10,000元
622
14.8%
10%
中低收入
10,001-17,000元
927
22.1%
20%
中等收入
17,001—26,500元
650
15.5%
20%
中高收入
26,501—34,000元
355
8.5%
20%
高收入
34,001—75,000元
635
15.1%
10%
最高收入
75,001—400,000元
565
13.5%
10%
剩余样本
>400,000元
76
1.8%
0%
合计
4195
100.0%
100%
注:
统计样本总共包括城镇居民约6.5万户。
表3.调查样本与统计样本的比较
推算收入
统计收入
两样本比较
分组
恩格尔系数
人均收入(元)
恩格尔系数
人均收入(元)
收入差额(元)
收入差率(%)
最低收入
0.4816
5685
0.4814
4754
931
19.6%
低收入
0.4595
8646
0.4594
7363
1283
17.4%
中低收入
0.4297
13392
0.4289
10196
3196
31.3%
中等收入
0.4065
20941
0.4042
13984
6957
49.7%
中高收入
0.3790
29910
0.3787
19254
10656
55.3%
高收入
0.3437
47772
0.3403
26250
21500
82.0%
最高收入
0.2908
164034
0.2918
43614
120420
276.1%
剩余样本
0.2241
658811
注1:
调查样本和统计样本对应各组恩格尔系数之间有很小的尾数误差,不影响分析,我们视同相等。
注2:
“收入差额”指调查收入高于统计收入的部分,“收入差率”是指收入差额相当于统计收入的百分比。
从表3可以看到,在对应各组恩格尔系数一一相等的情况下,调查样本每一组的人均收入都高于对应的统计样本,但差额和差率都非常有规律地逐级扩大,特别是最高收入组的差额和差率最大,统计样本最高收入组的人均收入只有4.3万元,而调查样本最高收入组为16.4万元,是前者的近3.8倍。
其差额占了全部样本差额的2/3。
这种情况和作者在2007年研究报告中发现的情况基本一样,所不同的只是中、低收入各组的差额和差率在一定程度上大于2007年报告的推算。
这样,也就基本上验证了2007年报告研究结果的可信性。
但对于这一推算的可信度,我们还要在下一节中通过另一种推算方法来验证。
此外还需要说明,在作者2007年研究报告发表后,有少数读者误认为这一研究方法仍然等同于用调查样本来推算城镇居民总体收入分布状况,因而对研究结果的可信性提出质疑。
因为无论本项研究的调查方法(非随机抽样)还是样本规模(规模偏小),都不适合用于直接推算城镇居民总体收入分布。
这种误解是由于对这项研究使用的恩格尔系数法,尤其是对分组比较的分析方法缺乏了解。
实际上,即使不理解我们使用的分组分析法与从调查样本推算总体的方法有何实质区别,只要将两种方法得到的结果进行对比就清楚了。
在表4中,作者使用本次调查的数据,把用分组分析法的结果与直接推算总体分布的结果进行比较。
显然,两种方法不仅每组得到的恩格尔系数有差异,而且每组人均收入的差别更为显著。
其中关于最高收入组的人均收入,分组分析法得到的结果是16.4万元,而推算总体的方法得到的是29.4万元。
两者的区别是显而易见的。
表4.基于2008年调查样本的比较:
分组分析法和推算总体方法
分组分析法
推算总体的方法
分组
恩格尔系数
人均收入(元)
样本分布比例
恩格尔系数
人均收入(元)
样本分布比例
最低收入
0.4816
5685
8.7%
0.4794
5884
10%
低收入
0.4595
8646
14.8%
0.4654
8362
10%
中低收入
0.4297
13392
22.1%
0.4323
12038
20%
中等收入
0.4065
20941
15.5%
0.4146
19285
20%
中高收入
0.3790
29910
8.5%
0.3656
35606
20%
高收入
0.3437
47772
15.1%
0.3187
76097
10%
最高收入
0.2908
164034
13.5%
0.2645
293769
10%
平均/合计
35462
98.2%
51771
100%
3.模型分析法
以分组比较法对收入水平进行推算,也存在缺点,即这种方法假定恩格尔系数只与收入水平相关。
但实际上,恩格尔系数还