什么是分位数?
分位数(Quantile),亦称分位点,是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位由3个部分组成(第25、50和75个百分位,常用于箱形图)和百分位数等。
分位数回归(Quantile Regression)
在介绍分位数回归之前,先重新说一下回归分析,我们之前介绍了线性回归、多项式回归等等,基本上,都是假定一个函数,然后让函数尽可能拟合训练数据,确定函数的未知参数。尽可能拟合训练数据,一般是通过最小化均方误差(MSE)来进行:
得到的y本质上就是一个期望。
根据上面的分析,我们可以得到一个结论:我们前面所有回归分析得到的函数,本质上就是一个条件期望函数,在x等于某个值的条件下,根据数据,求y的期望。
分位数回归提出的原因,就是因为不希望仅仅是研究y的期望,而是希望能探索y的完整分布状况,或者说可能在某些情况下我们更希望了解y的某个分位数。
假如现在我们有一个如图分布的数据,对其进行普通的回归分析,得到:
从拟合的曲线我们就可以看出问题了,原数据随着x增大,y的分布范围越来越大。
即使y的分布变化了,平均来说y还是以同样的斜率稳定上升,当我们使用0.9分位数回归,重新得出新函数图像:
比起普通的回归分析,就能进一步显示出y的变化幅度其实是增大了。所谓的0.9分位数回归,就是希望回归曲线之下能够包含90%的数据点(y),这也是分位数的概念,分位数回归是把分位数的概念融入到普通的线性回归而已。
仅仅得到0.9分位数回归曲线是不够的,进一步的我们可以画出不同的分位数回归曲线,这样才能能更加明显地反映出,随着x的增大,y的不同范围的数据是不同程度地变化的,而这个结论通过以前的回归分析是无法得到的,这就是分位数回归的作用。
分位数回归本质上是一个加权最小二乘法,给不同的y值不同的权重,最小化以下函数来获得
分位数回归是加权最小二乘法
比如现在有一个数据集是1到10这十个整数,我们希望求数据集的0.7分位数q。所有大于q的数都被赋上权重0.7,小于q的赋予权重0.3,不难验证出最后 q = 7。
分位数回归与最小二乘回归的区别
标准最小二乘回归模型仅对估计值的条件均值进行建模,并且计算成本较低。 相比之下,分位数回归最常用于对估计值的特定条件分位数进行建模。 与最小二乘回归不同,分位数回归不假设估计值具有特定的参数分布,也不假设估计值具有恒定方差。
分位数回归与线性回归区别
分位数回归,不能说是一种回归模型,而是一类回归模型,或者说是一种改进思想,我们可以把它应用到线性回归、多项式回归、核回归等等,最根本的就是把损失函数从最小二乘法改成加权最小二乘法,通过不同的分位数得到不同的结果,再根据结果进行分析。