线性回归模型 维基百科
在统计学中,线性回归是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。
1. Basic Notations
训练数据由组成,, ,两者都是随机变量, 目的则是找到一个, 来用预测。 同时有,的联合分布为。
a. Expected Prediction Error(EPE)[IDEAL Frame for Regression]
根据上面的符号,自然有
对于给定的,我们可以有
那么,我们的目标则转变为在给定的时候,求使得最小。
最小化一个很自然的想法,就是使, 推到过程如下:
由于, 因此,有:
也就是说,使得最小的应是随机变量对于的条件随机分布。
从定义上来讲,是衡量观测值与预测值之间的差异,而均方差(MSE)则是衡量预测值与真实值之间的差异,有如下公式:若有
则有,
也就是说,与之间的差别,只是一个观测值的恒定方差。
b. Linear Regression[Closer to Reality]
当然,上面的情况是完全理想状态中的模型,它并没有考虑:
-
观测值不一定完全等于, 更一般的时候,应有, 这就造成了上述的不能完全表达出真实的情况。同时一般情况下难以求出。
-
上述模型中,有一个条件假设,即:的情况下进行考虑。
上述两个情况不同的模型有不同的解决方法。
-
KNN模型, 某点的预测值,只与此点周围个临近点有关。此算法对于上述两点的近似为期望使用Average样本点近似和条件假设使用仅与周围个点有关近似。
-
线性回归模型, 直接假设对于全部样本点,有一个全局线性关系,即: 。 将此式带入可得, , 而线性回归模型将其中的期望使用在训练数据中Average近似, 如: 。
2. Introduce the Linear Regression
定义与标识符号与之前相同。
线性回归模型有如下形式:
其中,。此处,为标量。
a. Least Square Estimate(LSE)
Pick the coefficients to minimize the Residual Sum of Squares(RSS)
Each $x_i = (x_{i1}, x_{i2}, \ldots, x_{ip})$。
接下来,我们开始最小化上式。 记为矩阵,它的每一行为一个输入向量。为维向量,作训练集中的输出。 则,公式(2.a.1)可转换为如下:
这是一个有个参数的方程。对于求偏导数,得:
a.1 是满列秩的
如果, 此时假设是满列秩的, 那么,当我们把一阶偏导数置为0的时候,有
可以得到唯一解:
当我们把矩阵用它的列向量表示时,我们可以说,我们是在找一个关于的列向量的一个线性表示方法,也就是,来最精确的表示出。
从公式(2.a.a.1)可以看出,我们所要找的应是满足与所张成的向量空间正交的。 那么我们之前选取最小化的行为,则是使得残差向量与的列向量所张成的向量空间正交。
a.2 不是 满列秩的
当然,所假设的满列秩,更多的,只是理想情况。满列秩当且仅当这个特征之间相互独立。因此,一旦有一个或者几个列向量之间线性相关(这通常是很常见的),那么我们就不能按照公式(2.a.a.1)来直接解决这个问题。
从简单说起,当只有一维特征的时候,也就是说,。那么可以由上述得到:
如果记,即内积。那么公式(2.a.a.2)又可表示为:
当有多维特征时候,但是这几维特征都是相互正交的话,即:, 这就是我们上面讨论的是满列秩的情况,对于来说,依然有:
那么,对于不满列秩的情况,可以先把转换为满列秩的,也就是列向量之间正交的,然后即可通过已知方法得出最后所求。
回忆之前提到的残差向量与的列向量所张成的向量空间正交,假设有两个特征向量, 我们可以先将在上回归,所的残差就与正交,也就是说,此时与无关,如果此时将在上回归,所得出的唯一参数就应该是多元回归的时候,的参数。
那么,重复上述步骤,先后则可得出的参数,即可得到所有参数。
上述方法一般化如下:
- Step 1. 初始化
- Step 2. 对于每一个,分别将在上回归,得出系数,之后可以算出残差向量
- Step 3. 将在最后一个残差向量上回归,以算出参数
但是,上述步骤过于繁杂,需要多次重复。其实,经过证明,可以找到一种只需要遍历一遍的列向量即可得出所有参数(而非最后一个向量的参数)的方法。
其实,对于上面的Step 2(其实也叫做Gram-Schmidt正交化),我们可以将这个过程用对矩阵的分解表示。X=Z\Gamma
其中,的每一列是(按照顺序),而的第个元素为。回想分解,构造对角矩阵其中,则有:
其中,,是一个上三角矩阵。
那么
上述式子是完全可解的,因为是上三角矩阵。
3. To be Continued
Subset Selection, Shrinkage Methods and Comparison among them.