继之前所说的一般线性回归模型的定义以及方法:
- 完全理想化的回归模型,不考虑观测误差以及之间的依赖性(EPE)
- 把之间的关系直接假设为线性关系,演变成线性回归模型
- 进一步考虑实际情况,考虑观测误差,亦即:
- 使用LSE、MSE、EPE等衡量标准,求得最优模型参数
1. Shortcomings of Linear Regression
- Prediction Accuracy. 当使用LSE估计线性回归模型最优参数时,我们也就选择了low bias以及large variance特性的方式。
- Interpretation. 当特征维数较大的时候,我们更倾向于得出一个较小的Subset,用以涵盖大部分特征信息。
综上,看起来,在线性回归的基础上,通过一些具有bias的trick,牺牲一些bias,换来更多的预测准确率,似乎是一个不错的选择。
2. Best-Subset Selection
很直白的想法就是,我们通过一些衡量手段(measures),遍历所有的特征维度,选取较为符合我们预期的特征子集,作为我们的Best-Subset。
Typically, we choose the smallest model that minimizes an estimate of the Expected Prediction Error
至于选择最优子集的方法,主要分为三种:Forward- Backward- Stepwise Selection 以及双向同时进行。
有QR分解等方法可以使得程序加速运行。
3. Shrinkage Methods
上述子集选择方法,直观,但是对于特征来说,是一个离散的0-1选择,要么选,要么就不选。这种现象与我们“牺牲bias换取low variance”的初衷相悖。
接下来的Shrinkage类方法,则更加的连续,就减少了variance。
3.1 Ridge Regression
Key Point: 限制在一般线性回归模型中参数的大小(绝对值)
初衷:
- 考虑特征之间存在相关性的情形,如果一个特征的参数为,另外一个特征的参数为,同时异号,并且绝对值都较大。
- 那么,这种情况下,本来这两个特征所提供的信息,有用的起码是一个特征,但是,由于两个比较大的正负参数,相抵,使得这两个特征对于模型完全没有贡献。
岭回归模型如下:
不同于线性回归模型中仅仅对于RSS最优化,岭回归中在RSS的基础上,添加了一个对于参数大小的惩罚项。
将上面公式表示成矩阵样式,有如下模型:
回忆线性回归模型中,关于的最优化过程,即:求导后使导数为0.可以得到:
3.1.1 Additional Insight
对于任意矩阵,有分解:。其中,为的矩阵,为的正交矩阵。且矩阵的列向量,张成矩阵的列向量空间,矩阵的列向量,张成的行向量空间。则是对角矩阵。对角元素则为奇异值。
那么对于之前所得到的关于线性回归模型中,最优化LSE结果可改写为:
可以看出,一式中,是在对的列空间进行变换,得到相互正交的基之后,求得在其中的坐标值,所以,对于一般线性回归模型中LSE最优化过程来说,本质上,就是将通过线性变换到一个正交的坐标系下的过程。
那么,对于岭回归,同样将SVD分解结果带入,可以有:
其中,为SVD分解中,矩阵的第个对角元素。可以看出,相比于之前的线性回归模型,岭回归是将本来变换后的坐标值,在不同程度上Shrinking了一下。
3.2 The Lasso
Lasso是与岭回归极其相似,但是却有千差万别的效果的回归模型。具体如下:
唯一区别就是,岭回归使用了参数向量的二范数作为限制条件,而lasso则使用了一范数。
解决Lasso问模型的方法更多的,是偏向工程方面,使用各种快速近似方法得到结果。
Done!Thanks