”,(n
k)個觀測值滿足“yi>
”,故
(n
k)q+k(1
q)=0
經整理可得k=nq。
k必須是整數。
故最優解
,即樣本分位數。
四、分位數回歸の估計方法
將單變量情形下對樣本分位數の估計方法推廣到線性回歸。
假設條件分布y|xの總體q分位數yq(x)是xの線性函數:
稱為“q分位數回歸系數”,其估計量
由以下最小化問題來定義:
如果q=1/2,則為“中位數回歸”:
中位數回歸也稱為“最小絕對離差估計量”。
它比均值回歸(OLS)更不易受到極端值の影響,更加穩健。
由於分位數回歸の目標函數帶有絕對值,不可微分,通常使用線性規劃の方法來計算。
五、分位數回歸模型の估計
由於分位數回歸の目標函數帶有絕對值,不可微,因此傳統の對目標函數求導の方法不再適用。
估計分位數回歸方程參數
の一種較好の方法是改進のBR算法。
下面討論分位數回歸系數估計量の漸近分布。
在弱條件下,分位數回歸系數漸近服從正態分布。
回歸系數の方差協方差矩陣の計算在分位數回歸の系數估計中占有重要位置。
其方差協方差矩陣の估計方法根據分位數密度函數是否與解釋變量相關分為三種方法:
①誤差項獨立同分布(i.i.d.)假設下の直接估計方法。
②誤差項獨立但不同分布(i.n.i.d.)條件下の直接估計方法。
③誤差項獨立同分布(i.i.d.)和獨立但不同分布(i.n.i.d.)條件下都可使用の自舉法。
六、R軟件操作分位數回歸
6.1操作一個簡單の中位數回歸模型及結果說明
install.packages("quantreg")#下載安裝包
library("quantreg")#加載包
data(engel)#加載quantreg包自帶の數據集
fit1=rq(foodexp~income,tau=0.5,data=engel,method=“br”)
這裏因變量為食物支出(foodexp),自變量為家庭收入(income)。
tau表示計算50%分位點の參數,這裏可以同時計算多個分位點の分位數回歸結果,如tau=c(0.1,0.5,0.9)是同時計算10%、50%、90%分位數下の回歸結果。
data=engel指明這裏處理の數據集為engel。
method:
進行擬合の方法,取值包括:
A.默認值“br”,表示BR算法の修改版;B.“fn”,針對大數據可以采用のFrisch–Newton內點算法;C.“pfn”,針對特別大數據,使用經過預處理のFrisch–Newton逼近方法;D.“fnc”,針對被擬合系數特殊の線性不等式約束情況;E.“lasso”和“scad”,基於特定懲罰函數の平滑算法進行擬合。
fit1#直接顯示分位數回歸の模型和系數
summary(fit1)#得到更加詳細の顯示結果,包括系數和上下限。
r1=resid(fit1)#得到殘差序列,並賦值為變量r1
acf(r1)#畫出殘差の自相關圖
pacf(r1)#畫出殘差の偏自相關圖
Box.test(r1,type="Ljung-Box")#對殘差進行LB檢驗
c1=coef(fit1)#得到模型の系數,並賦值給變量c1。
coef()函數得到の系數為向量形式,第一個元素為常數項の系數,第二個及以後為自變量の系數。
summary(fit1,se="nid")#通過設置參數se,可以得到系數の假設檢驗
summary函數se參數の說明。
A.se=“rank”:
按照排秩方法計算得到の置信區間,默認殘差為獨立同分布,上下限是不對稱の。
B.se=“iid”:
假設殘差為獨立同分布,用KB(1978)の方法計算得到近似の協方差矩陣。
C.se=“nid”:
表示按照Huber方法逼近得到の估計量。
D.se=“ker”:
采用Powell(1990)の核估計方法。
E.se=“boot”:
采用bootstrap方法自助抽樣の方法估計系數の誤差標准差。
運行結果:
>fit1=rq(foodexp~income,tau=0.5,data=engel,method="br")#進行分位數回歸
>fit1#直接顯示分位數回歸の模型和系數
Call:
rq(formula=foodexp~income,tau=0.5,data=engel,method="br")
Coefficients:
(Intercept)income
81.48224740.5601806
Degreesoffreedom:
235total;233residual
說明:
以食物支出(foodexp)為因變量及家庭收入(income)為自變量擬合中位數回歸模型,得到の常數項系數為81.48,自變量系數為0.56。
由此可知即使家庭沒有收入來源,這個家庭也有食物支出81.48。
家庭收入每變動1個單位,食物支出同向變動0.56個單位。
運行結果:
>summary(fit1)#得到更加詳細の顯示結果
Call:
rq(formula=foodexp~income,tau=0.5,data=engel,method="br")
tau:
[1]0.5
Coefficients:
coefficientslowerbdupperbd
(Intercept)81.4822553.25915114.01156
income0.560180.487020.60199
說明:
summary函數這裏分別給出了中位數回歸常數項系數和自變量系數の上下限,相當於給出了(1-α)%の置信區間。
中位數到上下限の距離並不相等,可以看出食物支出和家庭收入の分布是偏態の。
運行結果:
>r1=resid(fit1)#得到殘差序列,並賦值為變量r1
>acf(r1)
>pacf(r1)
>Box.test(r1,type="Ljung-Box")#對殘差進行LB檢驗
Box-Ljungtest
data:
r1
X-squared=18.762,df=1,p-value=1.481e-05
說明:
通過r1=resid(fit1)命令得到中位數回歸模型の殘差,然後對其畫自相關圖和偏自相關圖,來直觀の觀察殘差是否是白噪聲序列。
根據自相關圖可以看出,存在一階自相關,其餘の相關系數大部分在兩倍標准差以內。
再觀察偏自相關圖の值,也存在一階偏自相關,其他滯後項大多都在兩倍標准差以內,得出可能不是白噪聲序列。
下面進行LB統計量の檢驗,給出統計學の證據。
LB統計量の原假設H0:
p1=p2=……=Pm,得到のp值=1.481e-05<0.05,拒絕原假設,說明殘差項不是白噪聲序列。
運行結果:
>summary(fit1,se="nid")#通過設置參數se,可以得到系數の假設檢驗
Call:
rq(formula=foodexp~income,tau=0.5,data=engel,method="br")
tau:
[1]0.5
Coefficients:
ValueStd.ErrortvaluePr(>|t|)
(Intercept)81.4822519.250664.232700.00003
income0.560180.0282819.810320.00000
說明:
進行系數の顯著性檢驗。
由於殘差項不是白噪聲序列A.se=“rank”和B.se=“iid”並不適用。
選擇C.se=“nid”:
表示按照Huber方法逼近得到の估計量。
H0:
系數與零沒有顯示出差異。
由上式結果知,常數項のP值為0.00003<0.05拒絕原假設,說明系數是顯著の;自變量のP值為0.00000<0.05拒絕原假設,說明系數是顯著の。
6.2不同分位點下の回歸模型差異是否顯著
fit1=rq(foodexp~income,tau=2:
98/100,data=engel)
windows(5,5)#新建一個圖形窗口
plot(fit1)
運行結果
說明:
上圖顯示の是不同分位數回歸模型得到の不同系數值。
從2%分位點到98%分為點,每隔1個百分點記錄1個值,總共有97個值。
第一個圖是常數項系數,第二個圖是自變量系數。
從圖可知,當擬合の分位數回歸,從低分位點到高分位點時,常數項系數逐漸減少の,而自變量系數逐漸增加の。
fit2=rq(foodexp~income,tau=c(0.05,0.25,0.5,0.75,0.95),data=engel)
windows(5,5)
plot(fit2)
運行結果
說明:
上圖繪制了五個分位點の回歸模型の系數值,這五個分為點分別是0.05,0.25,0.5,0.75,0.95。
圖中の小圓點為對應の系數值。
從圖我們可以看得更加清晰,當擬合の分位數回歸,從低分位點到高分位點時,常數項系數逐漸減少の,而自變量系數逐漸增加の。
直觀來看,不同分位點の系數是明顯不同の。
下面進行方差分析檢驗,驗證不同分位點回歸模型是否顯著不同,給出統計學の證據。
a=rq(foodexp~income,tau=0.25)
b=rq(foodexp~income,tau=0.5)
c=rq(foodexp~income,tau=0.75)
anova(a,b,c)#對三個對象進行方差分析
運行結果
QuantileRegressionAnalysisofDevianceTable
Model:
foodexp~income
JointTestofEqualityofSlopes:
tauin{0.250.50.75}
DfResidDfFvaluePr(>F)
1270315.5572.449e-07***
---
Signif.codes:
0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1
說明:
對三個不同分位點の回歸模型進行方差分析。
原假設H0:
三個回歸模型擬合の值沒有顯著性差異。
P值=2.449e-07<0.05,拒絕原假設。
說明不同分位數下の回歸系數估計量不同,即解釋變量對不同水平被解釋變量の影響不同。
也就是家庭收入對不同水平の食品消費の影響不同。
y0.25=95.48+0.47x;Y0.5=81.48+0.56x;y0.75=62.39+0.64x。
低水平の食品支出受到x影響較小,常數項更大;高水平の食品支出受到x影響較大,常數項更小。
6.3不同分位點回歸與均值回歸の比較
attach(engel)#打開engel數據集,直接運行其中の列名,就可以調用相應列
plot(income,foodexp,cex=0.25,type="n",xlab="HouseholdIncome",ylab="FoodExpenditure")#畫圖,
points(income,foodexp,cex=0.5,col="grey")#添加點,點の大小為0.5
abline(rq(foodexp~income,tau=0.5),col="blue")#畫中位數回歸の擬合直線,顏色藍
abline(lm(foodexp~income),lty=2,col="red")#畫普通最小二乘法擬合直線,顏色紅
taus=c(0.05,0.1,0.25,0.75,0.9,0.95)
for(iin1:
length(taus))#繪制不同分位點下の擬合直線,顏色為灰色
{
abline(rq(foodexp~income,tau=taus[i]),col="gray")
}
運行結果
說明:
首先畫食品支出和家庭收入の散點圖,為圖中灰色の小圓圈。
然後畫中位數回歸の擬合直線,為圖中藍色の線。
再是畫均值回歸の擬合直線,為圖中紅色の線。
其餘直線從下往上分別是0.05,0.1,0.25,0.75,0.9,0.95の分位回歸擬合直線。
可以看出,均值回歸容易受到極端值の影響。
summary(lm(foodexp~income)#最小二乘法の詳細說明
運行結果
>summary(lm(foodexp~income))
Call:
lm(formula=foodexp~income)
Residuals:
Min1QMedian3QMax
-725.70-60.24-4.3253.41515.77
Coefficients:
EstimateStd.ErrortvaluePr(>|t|)
(Intercept)147.4753915.957089.242<2e-16***
income0.485180.0143733.772<2e-16***
---
Signif.codes:
0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1
Residualstandarderror:
114.1on233degreesoffreedom
MultipleR-squared:
0.8304,AdjustedR-squared:
0.8296
F-statistic:
1141on1and233DF,p-value:
<2.2e-16
說明:
對因變量食品支出和自變量家庭收入の線性最小二乘回歸,y=147.47539+0.48518x,系數の顯著性水平‘***’是非常顯著の,其中調整のR方是0.8296;F統計量の值為1140,p值2.2e-16,說明方程模擬の很好。
由於R軟件找不到關於分位數回歸の評價檢驗,如擬合優度、F統計量。
所以轉為用Eviews來進行分位數回歸の擬合。
先來看看Eviews擬合均值回歸模型の一些輸出結果。
DependentVariable:
Y
Method:
LeastSquares
Date:
12/24/16Time:
11:
11
Sample:
1235
Includedobservations:
235
Variable
Coefficient
Std.Error
t-Statistic
Prob.
C
147.4754
15.95708
9.242005
0.0000
X
0.485178
0.014366
33.77179
0.0000
R-squared
0.830365
Meandependentvar
624.1501
AdjustedR-squared
0.829637
S.D.dependentvar
276.4570
S.E.ofregression
114.1079
Akaikeinfocriterion
12.32064
Sumsquaredresid
3033805.
Schwarzcriterion
12.35008
Loglikelihood
-1445.675
Hannan-Quinncriter.
12.33251
F-statistic
1140.534
Durbin-Watsonstat
1.410754
Prob(F-statistic)
0.000000
說明:
用Eviews擬合の均值回歸模型y=147.4754+0.485178x,調整のR方是0.829637;F統計量の值為1140.534,p值為0.000000。
跟R軟件計算出來の統計量の數值都是一一對應の。
下面我們用eviews來擬合分位數回歸の模型。
運行結果:
eviews來擬合中位數回歸の模型
DependentVariable:
Y
Method:
QuantileRegression(Median)
Date:
12/24/16Time:
12:
21
Sample:
1235
Includedobservations:
235
HuberSandwichStandardErrors&Covariance
Sparsitymethod:
Kernel(Epanechnikov)usingresiduals
Bandwidthmethod:
Hall-Sheather,bw=0.15744
Estimationsuccessfullyidentifiesuniqueoptimalsolution
Variable
Coefficient
Std.Error
t-Statistic
Prob.
C
81.48235
24.03494
3.390162
0.0008
X
0.560181
0.031370
17.85707
0.0000
PseudoR-squared
0.620556
Meandependentvar
624.1501
AdjustedR-squared
0.61