关于经济适用房申请人实际家庭月收入的估算.docx
《关于经济适用房申请人实际家庭月收入的估算.docx》由会员分享,可在线阅读,更多相关《关于经济适用房申请人实际家庭月收入的估算.docx(12页珍藏版)》请在冰豆网上搜索。
关于经济适用房申请人实际家庭月收入的估算
关于经济适用房申请人实际家庭月收入的估算
首都经济贸易大学彭展、杨莹、吴昂
摘要:
经济适用房是低收入群体关心的敏感话题,本文对统计调查取得的收入、教育程度及家庭户型等相关数据进行logit回归分析,针对经济适用房供不应求的现状提出了除了基本购买政策以外的更加实用的审核标准,并且对申请者所提供的相关收入证明的真实情况进行检验审核,以防投机者的利益性行为。
关键字:
经济适用房logit模型家庭月收入
一、问题的提出:
随着我国举办2008年北京奥运会、庆祝2010年建国90周年以及今年庆祝建党90周年,北京积极开展了城市建设工作,对很多老旧建筑进行拆除,以修建新的楼盘或修建体育场馆、拓宽马路、进行绿化等。
因此,许多市民面临着搬迁的选择。
众所周知,如今北京房价居高不下,为了保障广大居民的切身利益,政府特拨专款为经济条件拮据的居民提供经济适用房、廉租房等。
可以说,开发经济适用房的初衷,是解决低于收入平均线的占60%的中低收入家庭的居住问题,而大部分经济适用房3000至4000元的均价也符合中低收入家庭的经济承受能力。
然而,事实上有大量的中低收入家庭买不到经济适用房,或者淹没在浩浩荡荡的排号大军中。
也有不少投机者故意低报收入水平,为了以低价购房、高价卖出赚取差额。
因此,除了由街道负责人走近各申请人居住地了解实际情况以外,还需要对该申请人的月收入档次进行合理评估以及审核,从而判断申报人是否满足申购条件。
本报告旨在根据申购人的一些客观指标来估计其收入档次,为政府决策是否给与申购人购房指标提出参考性建议。
图1:
经济适用房申请家庭人均住房面积、家庭收入、家庭资产标准
二、数据来源和相关说明
XX文库《北京经济适用房政策》。
summary(a)
ageeducomhome
25~35岁:
282初中及以下:
141大专院校科研单位:
36单身:
39
25岁以下:
73大学(专、本科):
255国营企业:
297多口之家:
233
35~45岁:
207高中(中专):
309行政事业单位:
118两口之家:
93
45~55岁:
155研究生及以上:
14其它:
52三口之家:
354
55岁以上:
2失业:
50
私营企业:
166
salspacespacep sati
10000~25000元:
355Min.:
6.00 Min.:
2.40 不满意:
562
25000~50000元:
1191stQu.:
41.00 1stQu.:
13.22 满意:
157
5000~10000元:
192Median:
56.00 Median:
17.50
50000~75000元:
16Mean:
58.91 Mean:
20.55
5000元以下:
233rdQu.:
72.00 3rdQu.:
24.00
75000元以上:
14Max.:
168.00 Max.:
101.00
type
三室两厅:
192
三室一厅:
185
两室一厅:
167
两室两厅:
94
四室二厅双卫:
33
四室两厅单卫:
15
(Other):
33(包括一室一厅和更大户型)
数据描述:
目的是研究政府在提供保障性住房时,要考察每户的实际经济状况,看是否符合标准,由于变量样本指标很多很杂,因此要对样本数据进行剔除,并根据实际情况适当合并变量,以简化模型,具体操作如下:
Age:
样本中55岁以上者仅为2人,故删除,由常理知,一般人购房有两次,一为结婚,二为改善住宅水平,因此将25岁以下和25-35岁两组合并成一组,另一组为35至55岁组。
Edu:
此因子可能会影响购房观念和住房水平,按教育程度分为中低等水平(初中以下、高中)和高等水平(大学及以上)两个等级。
Com:
这项可以反映出收入是否稳定,一般而言,国家的企事业单位竞争压力相对小,职位和收入相对稳定,因此以此划分,将大专院校科研单位、国营企业、行政部门划为第一类,其他、私营、失业划分为第二类。
Home:
政府保障性住房针对家庭提供,故剔除单身的样本,将家庭中的两口、三口合并成小户家庭,多口的为大户家庭,按此两类划分。
Sal:
观察样本判断为家庭月工资收入,考虑到购房需要一定的资金保证,因此删除5000元以下的样本,而家庭月收入在50000-75000、75000以上的不需要这种福利保障,因此也剔除,最后将剩余样本按照10000以下、10000-25000、25000-50000划分。
Spacep:
连续型变量,保留。
Sati:
满意为1,不满意为0。
Type和space虽然一定程度上反映了住房现状,但似乎没有人均指标参考性强,因此删除。
用Excel按上述方法对样本数据进行处理。
规范后的样本指标如下:
变量类型变量含义变量名变量水平
因变量家庭月收入水平sal共三水平1=10000元以下、2=10000-25000元、
3=25000-50000元
自变量对住房的满意程度sati1=满意,0=不满意
教育程度edu共两种(1=高等水平0=中低等水平)
是否是适婚年龄age共两种(1=35岁以下,0=35-55岁)
收入是否稳定com共两种(1=国家企事业单位0=其他)
家庭情况home共两种(1=大户(多口)0=小户(两口、三口))
平均住房面积spacep连续型
三、描述性分析
1、平均住房面积为连续型变量,因此先考虑做它的箱线图。
R语句如下:
boxplot(spacep~sati,xlab="sal",ylab="spacep",main="平均住房面积")
2、再对其他各哑变量绘制百分比图:
R程序如下:
par(mfrow=c(3,2))
plot(c(1,3),c(0,1),type="n",xlab="sal",ylab="percentage",main="教育程度")
points(c(1:
3),tapply(edu,sal,mean),type="b")
plot(c(1,3),c(0,1),type="n",xlab="sal",ylab="percentage",main="适婚年龄")
points(tapply(age,sal,mean),type="b")
plot(c(1,3),c(0,1),type="n",xlab="sal",ylab="percentage",main="稳定收入")
points(tapply(com,sal,mean),type="b")
plot(c(1,3),c(0,1),type="n",xlab="sal",ylab="percentage",main="家庭户型")
points(tapply(home,sal,mean),type="b")
plot(c(1,3),c(0,1),type="n",xlab="sal",ylab="percentage",main="满意程度")
points(tapply(sati,sal,mean),type="b")
结论:
由图形可以粗略看出:
教育程度、稳定收入和家庭户型都会对家庭月工资水平产生显著影响。
而年龄段、满意程度似乎与工资水平关系不大。
四、模型的导出
1、全模型分析(考虑到因变量、自变量的类型,因此选择定序回归,probit和logit定序回归法都可采用,但是考虑到实际手算时,后者更为方便,因此选择logit回归方法)能否具体说明一下,为什么用logit
(1)先对模型的整体进行卡方检验:
R程序如下:
library(MASS)
logistic0=polr(as.factor(sal)~1,method="logistic",Hess=T)
logistic1=polr(as.factor(sal)~edu+age+com+home+spacep+sati,method="logistic",Hess=T)
anova(logistic0,logistic1)
LR统计量为98.96017,卡方值为0,高度显著,因此全模型中至少存在一个因子对模型的因变量有显著影响。
(2)每个因子的显著性检验
summary(logistic1)
Call:
polr(formula=as.factor(sal)~edu+age+com+home+spacep+
sati,Hess=T,method="logistic")
Coefficients:
ValueStd.Errortvalue
edu0.85898930.182722494.7010594
age-0.18780120.16088745-1.1672830
com0.61057130.170735953.5761142
home0.89122120.179572554.9630146
spacep0.05227720.010260175.0951603
sati-0.18753790.19868544-0.9438936
Intercepts:
ValueStd.Errortvalue
1|20.76310.25343.0109
2|33.50450.294911.8820
ResidualDeviance:
1163.846
AIC:
1179.846
由上面的分析表可以得出如下结论:
90%置信度下,t=1.28,因此可以看出年龄和满意度对于收入水平均无显著影响。
而教育程度edu、用来衡量收入是否稳定的企业类型com、家庭规模、人均住房使用面积则对因变量有较显著的影响。
剔除不显著的两个变量(age和sati)后,再次进行方程的拟合和各参数的检验:
logistic2=polr(as.factor(sal)~edu+com+home+spacep,method="logistic",Hess=T)
summary(logistic2)
Call:
polr(formula=as.factor(sal)~edu+com+home+spacep,Hess=T,
method="logistic")
Coefficients:
ValueStd.Errortvalue
edu0.829676920.1790147574.634685
com0.653566480.1682284033.884995
home0.876367380.1788726924.899392
spacep0.049569450.0097966795.059821
Intercepts:
ValueStd.Errortvalue
1|20.85660.24063.5598
2|33.59050.285512.5747
ResidualDeviance:
1166.040
AIC:
1178.040
可以看到,各变量均通过显著性检验,且模型的AIC明显减小,证明模型的拟合程度较上一模型得到提高。
2、模型的选择:
(全模型共8个自由度,0-1变量共5个,连续型1个,截距2个)
全模型共有6个解释变量,因此共有64种模型需要我们参考,因此,要完成更稳健而有效的模型挑选,需要借助R软件的step函数。
本例中分别采用AIC和BIC准则为筛选模型的标准,而这两个准则的原则都是统计量越小越好。
(1)AIC准则法:
logistic.aic=step(logistic1,trace=F)
summary(logistic.aic)
Call:
polr(formula=as.factor(sal)~edu+com+home+spacep,Hess=T,
method="logistic")
Coefficients:
ValueStd.Errortvalue
edu0.829676920.1790147574.634685
com0.653566480.1682284033.884995
home0.876367380.1788726924.899392
spacep0.049569450.0097966795.059821
Intercepts:
ValueStd.Errortvalue
1|20.85660.24063.5598
2|33.59050.285512.5747
ResidualDeviance:
1166.040
AIC:
1178.040
(2)BIC准则法:
logistic.bic=step(logistic1,trace=F,k=log(length(a[,1])))
summary(logistic.bic)
Call:
polr(formula=as.factor(sal)~edu+com+home+spacep,Hess=T,
method="logistic")
Coefficients:
ValueStd.Errortvalue
edu0.829676920.1790147574.634685
com0.653566480.1682284033.884995
home0.876367380.1788726924.899392
spacep0.049569450.0097966795.059821
Intercepts:
ValueStd.Errortvalue
1|20.85660.24063.5598
2|33.59050.285512.5747
ResidualDeviance:
1166.040
AIC:
1178.040
可以看到,两种标准下计算出的结果完全一致。
即模型保留edu、com、home、spacep这四个变量。
3、预测(以AIC准则为例)
得到了模型,我们就可以对经济适用房申购人所上报的月收入水平进行审核了。
假设此时某人40岁,高中学历,在国企工作,家有三口人,对现在居住条件不满意,现居住地人均使用面积为10m2,则可把这些值代入模型,观察他收入的水平,以区别他是否满足接受福利房的条件。
即edu=0,com=1,home=0,spacep=10
计算:
0.82967692*0+0.65356648*1+0.87636738*0+0.04956945*10=1.14926098
P(sal<=1)=exp(0.8566-1.14926098)/[1+exp(0.8566-1.14926098)]=0.2735254
P(sal<=2)=exp(3.5905-1.14926098)/[1+exp(3.5905-1.14926098)]=0.919918412
则sal=2即sal在10000-25000的概率为二者之差,P(sal=2)=0.646393012
P(sal=1)=0.2735254
P(sal=3)=0.080081587
因此,sal最有可能的结果是第二类的取值,即家庭月收入为10000-25000元,可以与申报人所汇报的实际收入进行对照,以判断当事者又没有低报。
也可采用R语言中的程序直接计算,如引入新样本a1,则:
a1$sal.hat=predict(logistic.aic,a1)
五、结论与不足
众所周知,随着商业房的房价节节高升,更多一般收入的家庭跟倾向于购买,自己还算负担得起的经济适用房。
经济适用房是国家通过划拨土地使用权,由开发商微利开发的,因此,售价相对低廉,其目的是解决城市中低收入家庭的住房问题,带有鲜明的政策性和社会保障性。
然而对于像经济适用房这类的政策性房屋,并不是想买就能买到的,对于这种供严重小于求的情况,一定地申请,审批,筛选是十分必要的。
由本例中的研究表明,对于家庭月收入水平——这一经济适用房申购者容易低报的指标,可以根据申购人其他的一些客观的、可考察的指标,大致进行分段的估计,以初步判断他所填报的内容是否属实,从而为政府经济适用房指标的分配提供参考。
另外,如果两个申购人的收入水平相同,还可以从概率的角度,来判断哪个人属于这一水平的概率更大,从而将这种定性的指标量化,做到更公平合理。
参考文献:
1、应用商务统计分析王汉生北京大学光华管理学院2、统计建模与R软件薛毅陈立萍清华大学出版社3、Anintroductiontocategoricaldataanalysis,Secondedition,AlanAgresti,AJohnWiley&Sons,Inc.Publication4、Discretechoicemethodswithsimulation,KennethE.Train,CambridgeUniversityPress