分位数回归-Quantile regression

一、分位数回归概念

分位数回归是估计一组回归变量X与被解释变量Y的分位数之间线性关系的建模方法。

以往的回归模型实际上是研究被解释变量的条件期望。而人们也关心解释变量与被解释变量分布的中位数,分位数呈何种关系。它最早由Koenker和Bassett(1978)提出。

OLS回归估计量的计算是基于最小化残差平方。分位数回归估计量的计算也是基于一种非对称形式的绝对值残差最小化。其中,中位数回归运用的是最小绝对值离差估计(LAD,least absolute deviations estimator)。

分位数回归的优点

(1)能够更加全面的描述被解释变量条件分布的全貌,而不是仅仅分析被解释变量的条件期望(均值),也可以分析解释变量如何影响被解释变量的中位数、分位数等。不同分位数下的回归系数估计量常常不同,即解释变量对不同水平被解释变量的影响不同。

(2)中位数回归的估计方法与最小二乘法相比,估计结果对离群值则表现的更加稳健,而且,分位数回归对误差项并不要求很强的假设条件,因此对于非正态分布而言,分位数回归系数估计量则更加稳健。

二、相关推导

2.1 分位数概念

一个连续随机变量y,其总体第\tau分位数是y(\tau)的定义是:y小于等于y(\tau)的概率是\tau,即
\tau = P( y \leqslant y(\tau)) = F(y(\tau))

2.2 离差绝对值LAD

定理:连续变量用y表示,其概率密度函数用f(y)表示,累计概率密度函数用F(y)表示,y的中位数用y_{(0.5)}表示,则y与任一值\alpha的离差绝对值的期望E(|y-\alpha|)\alpha= y_{(0.5)} 时为最小。

证明:

image.png

上文,莱布尼茨公式:

image.png

这里,我是用了参变量积分求导才理解通。

image.png

另有其他角度的证明,从样本出发,直觉上感觉也没有太大问题,方便理解。

image.png

2.3 分位数回归

image.png

目标函数(15.3)不可微,因此传统的对目标函数求导的方法不再适用。

2.4 效果以及理解

以一元 回归为例,如果用 LAD 法估计的中位数回归直线与用 OLS 法估计的均值回归直线有显著差别, 则表明被解释变量 y 的分布是非对称的。如果散点图上侧分位数回归直线之间与下侧分位数回归 直线之间相比,相互比较接近,则说明被解释变量 y 的分布是左偏倚的。反之是右偏倚的。对于 不同分位数回归函数如果回归系数的差异很大,说明在不同分位数上解释变量对被解释变量的影 响是不同的。

三、模型检验

1、拟合优度(Goodness-of-Fit)

2、拟似然比检验(Quasi-Likelihood Ratio Tests)

3、Wald 检验

系列分位数回归检验

1)斜率相等检验

2)对称性检验

四、求解方法

点估计:

image.png

区间估计:

image.png

R : quantreg - rq()

相关:

https://www.cnblogs.com/shangfr/p/5736738.html

statsmodels参考文献:

Roger Koenker and Kevin F. Hallock. "Quantile Regressioin". Journal of Economic Perspectives, Volume 15, Number 4, Fall 2001, Pages 143–156。

https://max.book118.com/html/2017/0615/115662569.shtm