全国研究生数学建模竞赛E题Word文档格式.docx
《全国研究生数学建模竞赛E题Word文档格式.docx》由会员分享,可在线阅读,更多相关《全国研究生数学建模竞赛E题Word文档格式.docx(11页珍藏版)》请在冰豆网上搜索。
一个国家的收入分配可以用统计分布表示,图1是某收入分配的密度函数,其中表示收入(仅考虑正的收入),是众数点,是中位数点,是平均收入。
收入分配经验分析说明,收入分配曲线一般是所谓正偏的,即峰值点向左偏,右端拖一个长尾巴,且通常有
(1)
记对应的分布函数为,则表示收入低于或等于的人口比例。
由于,
(1)式意味着收入大于或等于平均收入的人口一定不到半数,因此是少数。
记收入低于或等于的人口群体拥有收入占总收入的比例为,则应有
,
(2)
称之为收入分配的洛伦兹曲线。
显然,如果与是两个不同收入分配的洛伦兹曲线,若对任何都有,则对应的收入分配显然更优,因为在中,任何低收入端人口拥有的总收入比例更大。
下图中红色曲线是某收入分配的洛伦兹曲线。
图1
其中横轴表示人口比例,纵轴表示总收入比例。
显然,图中曲线位置越高,所代表的收入分配越平等。
其中线可以理解为平等收入线,这时,任何低收入端人口比例为的人口拥有的总收入比例也是,从而必定是完全平等的收入分配。
因此定义线与之间面积的倍为基尼系数。
于是基尼系数定义为
(3)
与具有关系
(4)
(5)
其中。
记的反函数为,则洛伦兹曲线可以表示为
实践中通过入户调查获得家庭收入与消费等数据,如果可以得到这类数据,则可以使用例如Kernel法估计收入分配的统计分布。
我国统计部门也进行这种调查,但数据不对外公开,而只是在统计年鉴上发布所谓的分组数据(世界上很多国家也如此),这种数据的完整形式为
,(6)
,(7)
其中是收入区间点,满足,通常理解为充分大的正数。
通常不大,例如。
很多国家只提供(7)式描述的数据。
经济学界只能利用这种稀疏的信息进行收入分配分析。
记,则中人口比例为。
例如图1中“+”中标出的点表示了形如(7)的数据点,其中,,最后的点是。
如果收入分配的真实洛伦兹曲线为,且若存在,则(6)表示的是曲线上的坐标点,即;
(7)表示曲线上的点,即。
经济学界采用所谓的洛伦兹曲线模型拟合上述数据(7),其中是一组参数,使用非线性最小二乘法求解
(8)
确定其中参数向量的估计值,然后用作为近似的洛伦兹曲线来进行收入分配分析,显然,这时就能通过(4)、(5)式确定相应的统计密度与分布的估计。
是定义在区间上、取值于区间的函数,满足
,,, (9)
即在上是凸增函数。
文献中常常略去参数以求表述简练。
也可以使用其他方法(例如多项式、样条函数逼近)来确定洛伦兹曲线,但实践证明使用洛伦兹曲线模型是比较理想的方法之一,有关洛伦兹曲线模型的最近文献见参考文献[3]。
经济理论中提出的另一种方法是使用经验分布拟合分组数据而直接形成收入分配的近似分布,有关参考文献见[1]。
图2
经济理论界考虑取收入落在中位收入的一个范围内的人口为中等收入人口,可以视这种方法为“收入空间法”。
例如图2(A),取其中收入属于中的人口为中等收入人口,这时中等收入人口比例显然等于,见图2(B)。
显然,这种方法中与的取法具有任意性,由于经济进步,通货膨胀等因素的影响,收入的区间是变化的,更多的情形是所有人口的收入都提高了,即全社会的收入区间右移,可见与的任意性使纵向比较各年的中等收入人口时出现困难。
另一种方法可以视为“人口空间法”,即选择邻近的一个范围为中等收入人口,例如取范围20%到80%,当然,按定义,中等收入人口比例已经取定为60%。
再用此60%的人口所拥有的收入占总收入的比例来描述中等收入人口的状态,此时中等收入人口的收入范围当然容易算得。
例如当范围取为20%到80%时,中等收入人口的状态即定义为
注意到平均收入为
即图3中左侧区域的面积,而是图中淡蓝色区域的面积。
图3
[2]讨论了两种方法的缺陷。
第一种方法是前面提到的任意性,再考虑第二种方法。
这种方法似乎有道理,例如经济发展、收入增加导致所有人口的收入都右移时,总是取中间的60%进行纵向比较似乎总是可行的。
设收入分配是上的均匀分布,这时中位收入是。
此时,中间60%人口拥有总收入的60%,收入范围为14000到26000。
考虑收入分配发生了变化,变成了上的均匀分布,这时收入范围拉大了,低端人口收入下降了,高端收入人口收入增加了,直观上两极分化扩大了,也即中等收入人口应该是下降了,但按第二种方法,中间60%的人口拥有的总收入比例仍是60%。
这与经济直观不符。
中等收入人口的多少与两极分化(polarization)的程度有关,所谓两极分化,用密度函数表示时,例如严重右偏且厚尾,也即中间部分空洞化。
两极分化与收入不平等(inequality)是不同的概念,文献[2]对这两个概念进行了准确阐述。
[2]建立了一种指数,这种指数说明两极分化的大小或严重程度,该指数扩大意味着两极分化严重了,这时表示中等收入人口缩小了。
反之若该指数缩小了,则意味着中等收入人口扩大了。
但该文献并没有给出测算中等收入人口比例大小的方法。
为此,需要研究中等收入定位与人口度量问题,请你根据表一中给出的分组数据,用数学模型研究给出的问题。
表一:
收入分配分组数据
0.00999.000.07800.07800.0059
1000.001499.000.05600.13400.0165
1500.001999.000.04200.17600.0276
2000.002499.000.04700.22300.0436
2500.002999.000.04200.26500.0611
3000.003499.000.04400.30900.0828
3500.003999.000.04100.35000.1061
4000.004999.000.08600.43600.1647
5000.005999.000.09200.52800.2413
6000.006999.000.08800.61600.3279
7000.007999.000.08000.69600.4188
8000.008999.000.06500.76100.5024
9000.009999.000.05200.81300.5772
10000.0011999.000.07800.89100.7071
12000.0014999.000.05600.94700.8216
15000.0024999.000.04300.99000.9453
25000.000.01001.00001.0000
表中是收入区间,单位为元,是该区间内的人口比例,是中人口比例,是中人口拥有的总收入比例,因此是洛伦兹曲线上的点,其中25000以上人口比例为1%。
总平均收入6603元。
请研究如下问题:
一.构造满足(9)式的新模型,使得能很好的拟合上述分组数据、反映经济规律。
例如文献[3]证明
,,, (10)
满足条件(9)。
该文中还提出了其他一些模型,并说明利用这些模型时,产生的估计结果优于密度函数的Kernel估计法。
请在现有参考文献中(文献[4]的参考文献部分列出了大部分有关的文献)找出至少10种模型,与你们提出的模型进行比较。
通过比较,说明你们的模型不差。
提示:
可以搜集到现成的无约束非线性最小二乘计算程序,利用参数变换对类似(10)的条件进行变换,将约束非线性最小二乘问题化为无约束的。
如果是你们找到的模型,分组数据是,是你们求得的的估计,拟合精度的好坏可以采用以下三种标准进行比较。
均方误差(MSE,meansquarederror):
平均绝对误差(MAE,meanabsoluteerror):
最大绝对误差(MAS,maximumabsoluteerror)
注意,本题中最好能构造新模型,而不是通过简单处理(例如加权)文献中的已有模型而得到的模型。
二.研究可否改进上述提到的收入空间法,这时需要研究确定中等收入的范围、中等收入人口的范围的科学方法,以克服中等收入区间取法的任意性;
研究可否改进上述提到的人口空间法,例如研究在各年中与取不同的值时,纵向比较各年中等收入人口与收入的变动的方法。
目前经济理论界将中等收入人口定义为中位收入附近的人口,于是若中间部分比前一年隆起得更高,则认为中等收入人口扩大了;
若两边人口扩大了,则中等收入人口下降了。
所提出的原理与模型应与这一直观相符。
其他有关价值取向方面的示例性提示见问题四。
三.利用最后表二~表五所附A,B两个地区前后两个不同年份的收入分配分组数据,请研究:
(1)对各地区、各年份的中等收入的数量(或范围)、中等收入人口的数量或范围进行定量描述,说明中等收入人口的变化趋势;
(2)比较两个地区的中等收入人口、收入等变化情况。
四.除二题中所述方法外,提出中等收入人口的定义、原理及经济学意义,并提出与之相应的中等收入人口的测算方法、模型或指数,说明其经济学意义。
所提出的方法应满足普遍的价值判断或价值取向,也应反映经济规律。
例如Sen(见参考文献[5])在构造贫困指数时采用的方法,是一数量,贫困越严重越大。
这一指数之所以有用,正是它反映经济规律,满足普遍的价值判断。
这种贫困指数的构造方法与本题没有关系,但请参考其中的思想。
设是贫困线,Sen先规定应满足以下两个公理(axiom),这两种公理实际上是经济规律方面的要求:
单调性:
贫困线以下人口增加时,增加;
转移性:
从贫困线以下任何人处转移收入给比他富有的人时,增加;
记,是第个人的收入。
是所谓的贫困缺口,贫困线以下人口的缺口为正,否则为负。
设整个社会的收入分配为,记是收入低于的人口集合,取贫困指数为以下加权和
其中是非负权数,是非负规范化因子。
是一种加权贫困缺口,定义在Z给定下全社会最大化贫困缺口为贫困指数,即取为贫困指数。
要求权数分配满足所谓的相对公平条件:
记第个成员的福利水平为,则时,取。
可见这是价值取向方面的条件。
另外还加上几种技术性的公理,Sen最后推导出一种目前广泛使用的贫困指数(见参考文献[5])。
表二:
收入分配分组数据(地区A,年份之一)
0.002228.280.100.0250
2228.283066.030.200.0673
3066.033790.180.300.1221
3790.184519.240.400.1882
4519.245254.750.500.2663
5254.756166.380.600.3569
6166.387273.480.700.4631
7273.488813.520.800.5901
8813.5211424.930.900.7485