应用时间序列分位数回归.docx-资源下载

应用时间序列分位数回归.docx

1、应用时间序列分位数回归一、为什么需要分位数回归二、总体分位数三、样本分位数四、分位数回归的估计方法五、分位数回归模型的估计六、R软件操作分位数回归一、为什么需要分位数回归？1、一般的回归模型着重考察x对y的条件期望E(y|x)的影响，如果y|x不是对称分布，则E(y|x)难以反映条件分布的全貌。如果能够估计条件分布y|x的若干重要的条件分位数，比如中位数等，能够更加全面的描述被解释变量条件分布的全貌，而不是仅仅分析被解释变量的条件期望（均值）。不同分位数下的回归系数估计量常常不同，即解释变量对不同水平被解释变量的影响不同。 2、使用 OLS 进行“均值回归”，由于最小化的目标函数为残差平方和，

2、容易受极端值影响。“分位数回归”，使用残差绝对值的加权平均作为最小化的目标函数，不易受极端值影响。而且，分位数回归对误差项并不要求很强的假设条件，因此对于非正态分布而言，分位数回归系数估计量则更加稳健。二、总体分位数假设Y为连续型随机变量，其累积分布函数为Fy()。Y的“总体q分位数”，记为yq，满足以下定义式：q = P (Yyq)= Fy(yq) 总体q分位数正好将总体分布分为两部分，其中小于或等于yq的概率为 q，而大于yq的概率为 (1-q )。如果q =1/ 2，则为中位数，正好将总体分为两个相等的部分。如果Fy()严格单调递增，则有yq=Fy-1 (q) 对于回归模型，记条件分布

4、方差。根据定义，条件分位数函数yq (x)满足q=Pyyq (x) (条件分位数的定义)=Px+ uyq (x)=Puyq (x) x=Pxyq (x) x=P(yq (x) x)/( x)=F(yq (x) x)/( x)其中，F()为的累积分布函数。因此，(yq(x) x)/( x)= F-1 (q)。yq(x)= x+ x*F-1(q)，故yq (x)是x的线性函数。在同方差的情况下，x为常数，所有条件分位数函数yq(x),0q1的斜率都等于，只有截距项x*F-1 (q)依赖于 q。一般地，条件分位数函数的“斜率”也依赖于 q，记为q。在下文中，假设条件分位数函数是解释变量 x 的线性函

5、数。三、样本分位数对于随机变量Y，如果总体的q分位数yq未知，可使用样本 q分位数来估计yq。将样本数据y1,y2,yn按从小到大的顺序排列为y(1),y(2), y(n)。等于第nq个最小观测值，其中n为样本容量，nq表示大于或等于nq而离nq最近的正整数。【例】n= 97，q =0.25，则nq=97* 0.25= 24.25= 25。但这种方法不易推广到回归模型。一种等价方法是，将样本分位数看成是某最小化问题的解。样本均值也可看成是最小化残差平方和的解：2 样本中位数可视为“最小化残差绝对值之和”问题的解： =median y1,y2,yn 为什么求解这个最小化问题会得到样本中位数呢？因

6、为只要的取值偏离中位数，就会使得残差绝对值之和上升。例考虑一个样本容量为99 的样本，假设其样本中位数(即第50个最小观测值)为 10。假设第 51 个最小观测值为 12。如让12而不是10，则对于前50 个观测值而言，其残差绝对值都将增加 2；对于后 49 个观测值而言，其残差绝对值都将减少 2。故总变动为(50*2)( 49*2)=2，故第 51个最小观测值不如第50个最小观测值(中位数)更能使目标函数最小化。同理，第49个最小观测值也不如第50个最小观测值。由此可知，第 50个最小观测值(中位数)是最优解。命题可以将样本q分位数视为以下最小化残差绝对值的加权平均问题的最优解：例如

7、果q =1/4，则满足“”条件的观测值只得到1/4的权重，而满足“”条件的其余观测值则得到3/4的权重。因为估计的是1/4分位数(位于总体的底部)，故较大的观测值得到的权重较小，而较小的观测值得到的权重较大。证明：将目标函数中的绝对值去掉可得对求一阶导数可得假设y(k)y(k+1)，其中y(k)为第k个最小观测值，则共有k个观测值满足“yi”，故(nk ) q+ k(1q)=0经整理可得k=nq。k 必须是整数。故最优解，即样本分位数。四、分位数回归的估计方法将单变量情形下对样本分位数的估计方法推广到线性回归。假设条件分布y | x的总体q分位数yq(x)是x的线性函数：称为“q分位数回归系

8、数”，其估计量由以下最小化问题来定义：如果q=1/2，则为“中位数回归”：中位数回归也称为“最小绝对离差估计量”。它比均值回归(OLS)更不易受到极端值的影响，更加稳健。由于分位数回归的目标函数带有绝对值，不可微分，通常使用线性规划的方法来计算。五、分位数回归模型的估计由于分位数回归的目标函数带有绝对值，不可微，因此传统的对目标函数求导的方法不再适用。估计分位数回归方程参数的一种较好的方法是改进的BR算法。下面讨论分位数回归系数估计量的渐近分布。在弱条件下，分位数回归系数渐近服从正态分布。回归系数的方差协方差矩阵的计算在分位数回归的系数估计中占有重要位置。其方差协方差矩阵的估计方法根据分位数

9、密度函数是否与解释变量相关分为三种方法：误差项独立同分布(i.i.d.)假设下的直接估计方法。误差项独立但不同分布(i.n.i.d.)条件下的直接估计方法。误差项独立同分布(i.i.d.)和独立但不同分布(i.n.i.d.)条件下都可使用的自举法。六、R软件操作分位数回归6.1操作一个简单的中位数回归模型及结果说明install.packages(quantreg) #下载安装包library(quantreg) # 加载包data(engel) # 加载 quantreg 包自带的数据集fit1 = rq(foodexp income, tau = 0.5, data = engel, me

10、thod=“br”) 这里因变量为食物支出(foodexp)，自变量为家庭收入(income)。tau 表示计算50%分位点的参数，这里可以同时计算多个分位点的分位数回归结果，如tau=c(0.1,0.5,0.9)是同时计算 10%、50%、90%分位数下的回归结果。data=engel 指明这里处理的数据集为 engel。method：进行拟合的方法，取值包括：A. 默认值“br”，表示BR算法的修改版；B. “fn”，针对大数据可以采用的FrischNewton内点算法；C. “pfn”，针对特别大数据，使用经过预处理的 FrischNewton 逼近方法；D. “fnc”，针对被拟合系数

11、特殊的线性不等式约束情况；E. “lasso”和“scad”，基于特定惩罚函数的平滑算法进行拟合。fit1 # 直接显示分位数回归的模型和系数summary(fit1) # 得到更加详细的显示结果，包括系数和上下限。r1 = resid(fit1) # 得到残差序列，并赋值为变量 r1acf(r1)# 画出残差的自相关图pacf(r1)# 画出残差的偏自相关图Box.test(r1, type=Ljung-Box)# 对残差进行LB检验c1 = coef(fit1) # 得到模型的系数，并赋值给变量 c1。coef()函数得到的系数为向量形式，第一个元素为常数项的系数，第二个及以后为自变量的系

12、数。summary(fit1, se = nid) # 通过设置参数 se，可以得到系数的假设检验summary函数se参数的说明。A. se = “rank”:按照排秩方法计算得到的置信区间，默认残差为独立同分布，上下限是不对称的。B. se=“iid”:假设残差为独立同分布，用KB(1978)的方法计算得到近似的协方差矩阵。C. se = “nid”:表示按照Huber方法逼近得到的估计量。D. se=“ker”:采用 Powell(1990)的核估计方法。E. se=“boot”:采用 bootstrap方法自助抽样的方法估计系数的误差标准差。运行结果： fit1 = rq(foode

13、xp income, tau = 0.5, data = engel,method=br) # 进行分位数回归 fit1 # 直接显示分位数回归的模型和系数Call:rq(formula = foodexp income, tau = 0.5, data = engel, method = br)Coefficients:(Intercept) income 81.4822474 0.5601806 Degrees of freedom: 235 total; 233 residual 说明：以食物支出(foodexp)为因变量及家庭收入(income)为自变量拟合中位数回归模型，得到的常数项

14、系数为81.48，自变量系数为0.56。由此可知即使家庭没有收入来源，这个家庭也有食物支出81.48。家庭收入每变动1个单位，食物支出同向变动0.56个单位。运行结果： summary(fit1) # 得到更加详细的显示结果Call: rq(formula = foodexp income, tau = 0.5, data = engel, method = br)tau: 1 0.5Coefficients: coefficients lower bd upper bd (Intercept) 81.48225 53.25915 114.01156income 0.56018 0.4870

15、2 0.60199 说明：summary函数这里分别给出了中位数回归常数项系数和自变量系数的上下限，相当于给出了(1-)%的置信区间。中位数到上下限的距离并不相等，可以看出食物支出和家庭收入的分布是偏态的。运行结果： r1 = resid(fit1) # 得到残差序列，并赋值为变量 r1 acf(r1) pacf(r1) Box.test(r1, type=Ljung-Box)# 对残差进行LB检验Box-Ljung testdata: r1X-squared = 18.762, df = 1, p-value = 1.481e-05 说明：通过r1 = resid(fit1)命令得到中位数回

16、归模型的残差，然后对其画自相关图和偏自相关图，来直观的观察残差是否是白噪声序列。根据自相关图可以看出，存在一阶自相关，其余的相关系数大部分在两倍标准差以内。再观察偏自相关图的值，也存在一阶偏自相关，其他滞后项大多都在两倍标准差以内，得出可能不是白噪声序列。下面进行LB统计量的检验，给出统计学的证据。LB统计量的原假设H0：p1=p2=Pm，得到的p值= 1.481e-05 summary(fit1, se = nid) # 通过设置参数 se，可以得到系数的假设检验Call: rq(formula = foodexp income, tau = 0.5, data = engel, metho

17、d = br)tau: 1 0.5Coefficients: Value Std. Error t value Pr(|t|)(Intercept) 81.48225 19.25066 4.23270 0.00003income 0.56018 0.02828 19.81032 0.00000 说明：进行系数的显著性检验。由于残差项不是白噪声序列A. se = “rank”和 B. se=“iid”并不适用。选择C. se = “nid”:表示按照Huber方法逼近得到的估计量。H0：系数与零没有显示出差异。由上式结果知，常数项的P值为0.000030.05拒绝原假设，说明系数是显著的；自变量

18、的P值为0.00000F) 1 2 703 15.557 2.449e-07 *-Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1 说明：对三个不同分位点的回归模型进行方差分析。原假设H0：三个回归模型拟合的值没有显著性差异。P值=2.449e-07 summary(lm(foodexp income)Call:lm(formula = foodexp income)Residuals: Min 1Q Median 3Q Max -725.70 -60.24 -4.32 53.41 515.77 Coefficients: Estimate Std.

19、 Error t value Pr(|t|) (Intercept) 147.47539 15.95708 9.242 2e-16 *income 0.48518 0.01437 33.772 2e-16 *-Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1Residual standard error: 114.1 on 233 degrees of freedomMultiple R-squared: 0.8304, Adjusted R-squared: 0.8296 F-statistic: 1141 on 1 and 233 DF, p-v

20、alue: 2.2e-16 说明：对因变量食品支出和自变量家庭收入的线性最小二乘回归，y=147.47539+0.48518x，系数的显著性水平*是非常显著的，其中调整的R方是0.8296；F统计量的值为1140，p值2.2e-16，说明方程模拟的很好。由于R软件找不到关于分位数回归的评价检验，如拟合优度、F统计量。所以转为用Eviews来进行分位数回归的拟合。先来看看Eviews拟合均值回归模型的一些输出结果。Dependent Variable: YMethod: Least SquaresDate: 12/24/16 Time: 11:11Sample: 1 235Included ob

21、servations: 235VariableCoefficientStd. Errort-StatisticProb.C147.475415.957089.2420050.0000X0.4851780.01436633.771790.0000R-squared0.830365Mean dependent var624.1501Adjusted R-squared0.829637S.D. dependent var276.4570S.E. of regression114.1079Akaike info criterion12.32064Sum squared resid3033805.Sch

22、warz criterion12.35008Log likelihood-1445.675Hannan-Quinn criter.12.33251F-statistic1140.534Durbin-Watson stat1.410754Prob(F-statistic)0.000000 说明：用Eviews拟合的均值回归模型y=147.4754+0.485178x，调整的R方是0.829637；F统计量的值为1140.534，p值为0.000000。跟R软件计算出来的统计量的数值都是一一对应的。下面我们用eviews来拟合分位数回归的模型。运行结果：eviews来拟合中位数回归的模型Depen

23、dent Variable: YMethod: Quantile Regression (Median)Date: 12/24/16 Time: 12:21Sample: 1 235Included observations: 235Huber Sandwich Standard Errors & CovarianceSparsity method: Kernel (Epanechnikov) using residualsBandwidth method: Hall-Sheather, bw=0.15744Estimation successfully identifies unique optimal solutionVariableCoefficientStd. Errort-StatisticProb.C81.4823524.034943.3901620.0008X0.5601810.03137017.857070.0000Pseudo R-squared0.620556Mean dependent var624.1501Adjusted R-squared0

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？