应用时间序列分位数回归.docx

资源描述

应用时间序列分位数回归.docx

《应用时间序列分位数回归.docx》由会员分享，可在线阅读，更多相关《应用时间序列分位数回归.docx（21页珍藏版）》请在冰豆网上搜索。

应用时间序列分位数回归.docx

应用时间序列分位数回归

一、為什麼需要分位數回歸

二、總體分位數

三、樣本分位數

四、分位數回歸の估計方法

五、分位數回歸模型の估計

六、R軟件操作分位數回歸

一、為什麼需要分位數回歸？

1、一般の回歸模型著重考察x對yの條件期望E（y|x）の影響，如果y|x不是對稱分布，則E（y|x）難以反映條件分布の全貌。

如果能夠估計條件分布y|xの若幹重要の條件分位數，比如中位數等，能夠更加全面の描述被解釋變量條件分布の全貌，而不是僅僅分析被解釋變量の條件期望（均值）。

不同分位數下の回歸系數估計量常常不同，即解釋變量對不同水平被解釋變量の影響不同。

2、使用OLS進行“均值回歸”，由於最小化の目標函數為殘差平方和，容易受極端值影響。

“分位數回歸”，使用殘差絕對值の加權平均作為最小化の目標函數，不易受極端值影響。

而且，分位數回歸對誤差項並不要求很強の假設條件，因此對於非正態分布而言，分位數回歸系數估計量則更加穩健。

二、總體分位數

假設Y為連續型隨機變量，其累積分布函數為Fy（·）。

Yの“總體q分位數”，記為yq，滿足以下定義式：

q=P（Y≤yq）=Fy（yq）

總體q分位數正好將總體分布分為兩部分，其中小於或等於yqの概率為q，而大於yqの概率為（1-q）。

如果q=1/2，則為中位數，正好將總體分為兩個相等の部分。

如果Fy（·）嚴格單調遞增，則有yq=Fy-1（q）

對於回歸模型，記條件分布y|xの累積分布函數為Fy|x（·）。

條件分布y|xの總體q分位數，記為yq，滿足以下定義式：

q=Fy|x（yq）

假設Fy|x（·）嚴格單調遞增，則有yq=Fy|x-1（q）

由於條件累積分布函數Fy|x（·）依賴於x，故條件分布y|xの總體q分位數yq也依賴於x，記為yq（x），稱為“條件分位數函數”。

對於線性回歸模型，如果擾動項滿足同方差の假定，或擾動項の異方差形式為乘積形式，則yq（x）是xの線性函數。

證明如下：

y=x’β+u

u=x’α·ε

ε~iid（0,σ2）

不失一般性，假設x’α>0。

如果x’α為常數，則擾動項u為同方差；反之，則為乘積形式の異方差。

根據定義，條件分位數函數yq（x）滿足

q=P｛y≤yq（x）｝（條件分位數の定義）

=P｛x’β+u≤yq（x）｝

=P｛u≤yq（x）–x’β｝

=P｛x’α·ε≤yq（x）–x’β｝

=P｛ε≤（yq（x）–x’β）/（x’α）｝

=Fε（yq（x）–x’β）/（x’α））

其中，Fε（·）為εの累積分布函數。

因此，（yq（x）–x’β）/（x’α）=Fε-1（q）。

yq（x）=x’β+x’α*Fε-1（q），故yq（x）是xの線性函數。

在同方差の情況下，x’α為常數，所有條件分位數函數{yq（x）,0

一般地，條件分位數函數の“斜率”也依賴於q，記為βq。

在下文中，假設條件分位數函數是解釋變量xの線性函數。

三、樣本分位數

對於隨機變量Y，如果總體のq分位數yq未知，可使用樣本q分位數

來估計yq。

將樣本數據{y1,y2,…,yn}按從小到大の順序排列為{y

（1）,y

（2）,…,y（n）}。

等於第[nq]個最小觀測值，其中n為樣本容量，[nq]表示大於或等於nq而離nq最近の正整數。

【例】n=97，q=0.25，則[nq]=[97*0.25]=[24.25]=25。

但這種方法不易推廣到回歸模型。

一種等價方法是，將樣本分位數看成是某最小化問題の解。

樣本均值也可看成是最小化殘差平方和の解：

樣本中位數可視為“最小化殘差絕對值之和”問題の解：

=median{y1,y2,…,yn}

為什麼求解這個最小化問題會得到樣本中位數呢？

因為只要

の取值偏離中位數，就會使得殘差絕對值之和上升。

例考慮一個樣本容量為99の樣本，假設其樣本中位數（即第50個最小觀測值）為10。

假設第51個最小觀測值為12。

如讓

12而不是10，則對於前50個觀測值而言，其殘差絕對值

都將增加2；對於後49個觀測值而言，其殘差絕對值

都將減少2。

故總變動為（50*2）

（49*2）=2，故第51個最小觀測值不如第50個最小觀測值（中位數）更能使目標函數最小化。

同理，第49個最小觀測值也不如第50個最小觀測值。

由此可知，第50個最小觀測值（中位數）是最優解。

命題可以將樣本q分位數視為以下最小化殘差絕對值の加權平均問題の最優解：

例如果q=1/4，則滿足“

”條件の觀測值只得到1/4の權重，而滿足“

”條件の其餘觀測值則得到3/4の權重。

因為估計の是1/4分位數（位於總體の底部），故較大の觀測值得到の權重較小，而較小の觀測值得到の權重較大。

證明：

將目標函數中の絕對值去掉可得

對

求一階導數可得

假設y（k）<

”，（n

k）個觀測值滿足“yi>

”，故

（n

k）q+k（1

q）=0

經整理可得k=nq。

k必須是整數。

故最優解

，即樣本分位數。

四、分位數回歸の估計方法

將單變量情形下對樣本分位數の估計方法推廣到線性回歸。

假設條件分布y|xの總體q分位數yq（x）是xの線性函數：

稱為“q分位數回歸系數”，其估計量

由以下最小化問題來定義：

如果q=1/2，則為“中位數回歸”：

中位數回歸也稱為“最小絕對離差估計量”。

它比均值回歸（OLS）更不易受到極端值の影響，更加穩健。

由於分位數回歸の目標函數帶有絕對值，不可微分，通常使用線性規劃の方法來計算。

五、分位數回歸模型の估計

由於分位數回歸の目標函數帶有絕對值，不可微，因此傳統の對目標函數求導の方法不再適用。

估計分位數回歸方程參數

の一種較好の方法是改進のBR算法。

下面討論分位數回歸系數估計量の漸近分布。

在弱條件下，分位數回歸系數漸近服從正態分布。

回歸系數の方差協方差矩陣の計算在分位數回歸の系數估計中占有重要位置。

其方差協方差矩陣の估計方法根據分位數密度函數是否與解釋變量相關分為三種方法：

①誤差項獨立同分布（i.i.d.）假設下の直接估計方法。

②誤差項獨立但不同分布（i.n.i.d.）條件下の直接估計方法。

③誤差項獨立同分布（i.i.d.）和獨立但不同分布（i.n.i.d.）條件下都可使用の自舉法。

六、R軟件操作分位數回歸

6.1操作一個簡單の中位數回歸模型及結果說明

install.packages（"quantreg"）#下載安裝包

library（"quantreg"）#加載包

data（engel）#加載quantreg包自帶の數據集

fit1=rq（foodexp~income,tau=0.5,data=engel,method=“br”）

這裏因變量為食物支出（foodexp），自變量為家庭收入（income）。

tau表示計算50%分位點の參數，這裏可以同時計算多個分位點の分位數回歸結果，如tau=c（0.1,0.5,0.9）是同時計算10%、50%、90%分位數下の回歸結果。

data=engel指明這裏處理の數據集為engel。

method：

進行擬合の方法，取值包括：

A.默認值“br”，表示BR算法の修改版；B.“fn”，針對大數據可以采用のFrisch–Newton內點算法；C.“pfn”，針對特別大數據，使用經過預處理のFrisch–Newton逼近方法；D.“fnc”，針對被擬合系數特殊の線性不等式約束情況；E.“lasso”和“scad”，基於特定懲罰函數の平滑算法進行擬合。

fit1#直接顯示分位數回歸の模型和系數

summary（fit1）#得到更加詳細の顯示結果，包括系數和上下限。

r1=resid（fit1）#得到殘差序列，並賦值為變量r1

acf（r1）#畫出殘差の自相關圖

pacf（r1）#畫出殘差の偏自相關圖

Box.test（r1,type="Ljung-Box"）#對殘差進行LB檢驗

c1=coef（fit1）#得到模型の系數，並賦值給變量c1。

coef（）函數得到の系數為向量形式，第一個元素為常數項の系數，第二個及以後為自變量の系數。

summary（fit1,se="nid"）#通過設置參數se，可以得到系數の假設檢驗

summary函數se參數の說明。

A.se=“rank”:

按照排秩方法計算得到の置信區間，默認殘差為獨立同分布，上下限是不對稱の。

B.se=“iid”:

假設殘差為獨立同分布，用KB（1978）の方法計算得到近似の協方差矩陣。

C.se=“nid”:

表示按照Huber方法逼近得到の估計量。

D.se=“ker”:

采用Powell（1990）の核估計方法。

E.se=“boot”:

采用bootstrap方法自助抽樣の方法估計系數の誤差標准差。

運行結果：

>fit1=rq（foodexp~income,tau=0.5,data=engel,method="br"）#進行分位數回歸

>fit1#直接顯示分位數回歸の模型和系數

Call:

rq（formula=foodexp~income,tau=0.5,data=engel,method="br"）

Coefficients:

（Intercept）income

81.48224740.5601806

Degreesoffreedom:

235total;233residual

說明：

以食物支出（foodexp）為因變量及家庭收入（income）為自變量擬合中位數回歸模型，得到の常數項系數為81.48，自變量系數為0.56。

由此可知即使家庭沒有收入來源，這個家庭也有食物支出81.48。

家庭收入每變動1個單位，食物支出同向變動0.56個單位。

運行結果：

>summary（fit1）#得到更加詳細の顯示結果

Call:

rq（formula=foodexp~income,tau=0.5,data=engel,method="br"）

tau:

[1]0.5

Coefficients:

coefficientslowerbdupperbd

（Intercept）81.4822553.25915114.01156

income0.560180.487020.60199

說明：

summary函數這裏分別給出了中位數回歸常數項系數和自變量系數の上下限，相當於給出了（1-α）%の置信區間。

中位數到上下限の距離並不相等，可以看出食物支出和家庭收入の分布是偏態の。

運行結果：

>r1=resid（fit1）#得到殘差序列，並賦值為變量r1

>acf（r1）

>pacf（r1）

>Box.test（r1,type="Ljung-Box"）#對殘差進行LB檢驗

Box-Ljungtest

data:

X-squared=18.762,df=1,p-value=1.481e-05

說明：

通過r1=resid（fit1）命令得到中位數回歸模型の殘差，然後對其畫自相關圖和偏自相關圖，來直觀の觀察殘差是否是白噪聲序列。

根據自相關圖可以看出，存在一階自相關，其餘の相關系數大部分在兩倍標准差以內。

再觀察偏自相關圖の值，也存在一階偏自相關，其他滯後項大多都在兩倍標准差以內，得出可能不是白噪聲序列。

下面進行LB統計量の檢驗，給出統計學の證據。

LB統計量の原假設H0：

p1=p2=……=Pm，得到のp值=1.481e-05<0.05，拒絕原假設，說明殘差項不是白噪聲序列。

運行結果：

>summary（fit1,se="nid"）#通過設置參數se，可以得到系數の假設檢驗

Call:

rq（formula=foodexp~income,tau=0.5,data=engel,method="br"）

tau:

[1]0.5

Coefficients:

ValueStd.ErrortvaluePr（>|t|）

（Intercept）81.4822519.250664.232700.00003

income0.560180.0282819.810320.00000

說明：

進行系數の顯著性檢驗。

由於殘差項不是白噪聲序列A.se=“rank”和B.se=“iid”並不適用。

選擇C.se=“nid”:

表示按照Huber方法逼近得到の估計量。

H0：

系數與零沒有顯示出差異。

由上式結果知，常數項のP值為0.00003<0.05拒絕原假設，說明系數是顯著の；自變量のP值為0.00000<0.05拒絕原假設，說明系數是顯著の。

6.2不同分位點下の回歸模型差異是否顯著

fit1=rq（foodexp~income,tau=2:

98/100,data=engel）

windows（5,5）#新建一個圖形窗口

plot（fit1）

運行結果

說明：

上圖顯示の是不同分位數回歸模型得到の不同系數值。

從2%分位點到98%分為點，每隔1個百分點記錄1個值，總共有97個值。

第一個圖是常數項系數，第二個圖是自變量系數。

從圖可知，當擬合の分位數回歸，從低分位點到高分位點時，常數項系數逐漸減少の，而自變量系數逐漸增加の。

fit2=rq（foodexp~income,tau=c（0.05,0.25,0.5,0.75,0.95）,data=engel）

windows（5,5）

plot（fit2）

運行結果

說明：

上圖繪制了五個分位點の回歸模型の系數值，這五個分為點分別是0.05,0.25,0.5,0.75,0.95。

圖中の小圓點為對應の系數值。

從圖我們可以看得更加清晰，當擬合の分位數回歸，從低分位點到高分位點時，常數項系數逐漸減少の，而自變量系數逐漸增加の。

直觀來看，不同分位點の系數是明顯不同の。

下面進行方差分析檢驗，驗證不同分位點回歸模型是否顯著不同，給出統計學の證據。

a=rq（foodexp~income,tau=0.25）

b=rq（foodexp~income,tau=0.5）

c=rq（foodexp~income,tau=0.75）

anova（a,b,c）#對三個對象進行方差分析

運行結果

QuantileRegressionAnalysisofDevianceTable

Model:

foodexp~income

JointTestofEqualityofSlopes:

tauin{0.250.50.75}

DfResidDfFvaluePr（>F）

1270315.5572.449e-07***

---

Signif.codes:

0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1

說明：

對三個不同分位點の回歸模型進行方差分析。

原假設H0：

三個回歸模型擬合の值沒有顯著性差異。

P值=2.449e-07<0.05，拒絕原假設。

說明不同分位數下の回歸系數估計量不同，即解釋變量對不同水平被解釋變量の影響不同。

也就是家庭收入對不同水平の食品消費の影響不同。

y0.25=95.48+0.47x;Y0.5=81.48+0.56x;y0.75=62.39+0.64x。

低水平の食品支出受到x影響較小，常數項更大；高水平の食品支出受到x影響較大，常數項更小。

6.3不同分位點回歸與均值回歸の比較

attach（engel）#打開engel數據集，直接運行其中の列名，就可以調用相應列

plot（income,foodexp,cex=0.25,type="n",xlab="HouseholdIncome",ylab="FoodExpenditure"）#畫圖，

points（income,foodexp,cex=0.5,col="grey"）#添加點，點の大小為0.5

abline（rq（foodexp~income,tau=0.5）,col="blue"）#畫中位數回歸の擬合直線，顏色藍

abline（lm（foodexp~income）,lty=2,col="red"）#畫普通最小二乘法擬合直線，顏色紅

taus=c（0.05,0.1,0.25,0.75,0.9,0.95）

for（iin1:

length（taus））#繪制不同分位點下の擬合直線，顏色為灰色

{

abline（rq（foodexp~income,tau=taus[i]）,col="gray"）

}

運行結果

說明：

首先畫食品支出和家庭收入の散點圖，為圖中灰色の小圓圈。

然後畫中位數回歸の擬合直線，為圖中藍色の線。

再是畫均值回歸の擬合直線，為圖中紅色の線。

其餘直線從下往上分別是0.05,0.1,0.25,0.75,0.9,0.95の分位回歸擬合直線。

可以看出，均值回歸容易受到極端值の影響。

summary（lm（foodexp~income）#最小二乘法の詳細說明

運行結果

>summary（lm（foodexp~income））

Call:

lm（formula=foodexp~income）

Residuals:

Min1QMedian3QMax

-725.70-60.24-4.3253.41515.77

Coefficients:

EstimateStd.ErrortvaluePr（>|t|）

（Intercept）147.4753915.957089.242<2e-16***

income0.485180.0143733.772<2e-16***

---

Signif.codes:

0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1

Residualstandarderror:

114.1on233degreesoffreedom

MultipleR-squared:

0.8304,AdjustedR-squared:

0.8296

F-statistic:

1141on1and233DF,p-value:

<2.2e-16

說明：

對因變量食品支出和自變量家庭收入の線性最小二乘回歸，y=147.47539+0.48518x，系數の顯著性水平‘***’是非常顯著の，其中調整のR方是0.8296；F統計量の值為1140，p值2.2e-16，說明方程模擬の很好。

由於R軟件找不到關於分位數回歸の評價檢驗，如擬合優度、F統計量。

所以轉為用Eviews來進行分位數回歸の擬合。

先來看看Eviews擬合均值回歸模型の一些輸出結果。

DependentVariable:

Method:

LeastSquares

Date:

12/24/16Time:

11:

Sample:

1235

Includedobservations:

235

Variable

Coefficient

Std.Error

t-Statistic

Prob.

147.4754

15.95708

9.242005

0.0000

0.485178

0.014366

33.77179

0.0000

R-squared

0.830365

Meandependentvar

624.1501

AdjustedR-squared

0.829637

S.D.dependentvar

276.4570

S.E.ofregression

114.1079

Akaikeinfocriterion

12.32064

Sumsquaredresid

3033805.

Schwarzcriterion

12.35008

Loglikelihood

-1445.675

Hannan-Quinncriter.

12.33251

F-statistic

1140.534

Durbin-Watsonstat

1.410754

Prob（F-statistic）

0.000000

說明：

用Eviews擬合の均值回歸模型y=147.4754+0.485178x，調整のR方是0.829637；F統計量の值為1140.534，p值為0.000000。

跟R軟件計算出來の統計量の數值都是一一對應の。

下面我們用eviews來擬合分位數回歸の模型。

運行結果：

eviews來擬合中位數回歸の模型

DependentVariable:

Method:

QuantileRegression（Median）

Date:

12/24/16Time:

12:

Sample:

1235

Includedobservations:

235

HuberSandwichStandardErrors&Covariance

Sparsitymethod:

Kernel（Epanechnikov）usingresiduals

Bandwidthmethod:

Hall-Sheather,bw=0.15744

Estimationsuccessfullyidentifiesuniqueoptimalsolution

Variable

Coefficient

Std.Error

t-Statistic

Prob.

81.48235

24.03494

3.390162

0.0008

0.560181

0.031370

17.85707

0.0000

PseudoR-squared

0.620556

Meandependentvar

624.1501

AdjustedR-squared

0.61

展开阅读全文