最优化方法整理(二)—— Online场景下LR最优化算法
本文接上文(最优化方法整理(一)——Batch场景下SGD类优化方法),继续整理下在Online场景下,LR算法优化方法,为了获得更大的模型(参数)稀疏性,各个算法所做的一些努力。
主要参考文档是冯杨的在线最优化求解 【没找到最原始文档链接】
最优化方法整理(一)—— Batch场景下SGD类优化算法
本文主要整理下Batch、Online场景下,各种常用的最优化算法。内容上大部分是参考其他博客,并无太多原创成分,目的是梳理知识点,加深理解。
因此会尽量在必要的地方添加来源信息,如有遗漏或者错误之处,请不吝指出!
MachineLearning——1——AUC指标为什么如此重要
之前训练CTR排序模型时,一直使用AUC作为指标。但是对它只有一个感性的认识(衡量排序结果好坏,倾向于把正样本排到负样本之前);
现在将AUC的定义、原理以及物理意义整理如下,并总结常用计算方法;
1 定义原理
AUC(Area Under ROC Curve)指标是指基于TPR(True Positive Rate)以及FPR(False Positive Rate)所形成的ROC(Receiver Operating Characteristic)曲线下方图形(与x轴正方向)的面积。
首先从ROC曲线定义开始。
ESL II —— 5 —— KNN算法的Effective Number/Degree of Freedom
ESL II中有提到关于 “Effective Number of -Nearest-Neighbors is , N is Number of Samples”,原文中一笔带过,可能高估了我的统计基础= =!,整理如下:
1. 定义
KNN定义不在多讲, KNN算法的Effective Number(又名Degree of Freedom, 或VC-Dimension):
ESL II —— 4 —— K-Means 及 K-Nearest-Neighbors算法小结
0. Introduction
作为同一类Model-Free的分类方法, K-means和KNN两者可能对于理解特征与标签之间的关系不是太有用, 但是在一些问题中,他们作为Blackbox预测器效果很不错.
下面会就原型方法, 如k-means, LVQ等, 介绍一类基于prototype(原型)点的分类方法.
ESL II —— 3 —— Linear Classification Model
1.Linear Decision Boundaries
Intuition
Instead of making an assumption on the form of the class densities, we make an assumption on the form of the boundaries that seperating classes.
对于离散分类问题来说, 我们总是能够把input space分成对应不同label的子空间.
这些子空间之间的边界可以是Rough的,也可以是smooth的.其中,有一类比较重要, 常见的,则是线型决策边界(linear decision boundaries)
如, 当我们fit一个线型模型来建模$k,l...
ESL II —— 2(2) —— Linear Regression Model
继之前所说的一般线性回归模型的定义以及方法:
完全理想化的回归模型,不考虑观测误差以及之间的依赖性(EPE)
把之间的关系直接假设为线性关系,演变成线性回归模型
进一步考虑实际情况,考虑观测误差,亦即:
使用LSE、MSE、EPE等衡量标准,求得最优模型参数
ESL II —— 2(1) —— Linear Regression Model
线性回归模型 维基百科
在统计学中,线性回归是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。
ESL II —— 1 —— 关于EPE(公式2.11,2.13)的推导过程
原公式在ESLII 影印版 Section 2.4(p. 18),猛地一看公式2.11到2.13的推导跳跃性太大,于是搜寻了一些资料,整理如下
1. 定义
对于损失函数来说,EPE(Expected Prediction Error)定义如下:
其中是维实数向量,是实数标量,为我们要学习的映射函数。
11 post articles, 2 pages.