一、机器学习介绍&线性、逻辑回归
什么是机器学习
- 要学什么—决策函数
- 从哪里学—训练数据
- 怎样学习—求解机器学习模型
针对某个任务 (Task ),利用训练数据 (Experience ),求
解一个学习模型,从而提高该任务的性能 (Performance)
机器学习要素:
- 任务、目标(Task)
- 使用经验数据(Experience)
- 提高学习性能(Performance)
线性、逻辑回归
多元线性回归
损失函数几何意义:试图找到一个超平面,使所有样本到超平面上的欧式距离之和最小
梯度下降法求解
随机梯度下降法
正规方程
比较
- MSE (mean square error) 均方误差
F1 measure
逻辑回归
梯度上升法求解:
二、神经网络
损失
二分类损失
多分类损失
回归损失
反向传播一般情形
- 注意,由于$z^l$是关于l-1层权重和偏置的函数,所以对$b^{l-1}$ 求偏导,链式法则前面应该是对l层的z求偏导。
神经网络模型算法
对数似然vs二次代价
二次代价:刚开始学习的速度比较缓慢
交叉熵:刚开始学习的速度相当快,与期待一样,当严重错误时能以最快速度学习;当预测输出接近正确输出时,学习速度变慢
三、支持向量机
问题建模
求解
约束优化、对偶
SVM对偶问题
- 对偶问题的规模正比于训练样本数
例子
- 超平面法向量是支持向量的线性组合:仅支持向量的 $\alpha_i \neq0$
SVM性质
软SVM
- 注意,软SVM主问题中的约束多了一个 $\epsilon_i \geq 0$
软SVM对偶问题推导
软SVM高效求解
四、集成学习、特征选择
集成学习
集成方法分类
- 串行式集成学习 :个体学习器之间存在强依赖关系,后生成的个体学习器依赖前面生成的个体学习器。代表
性算法 Boosting。 - 并行式集成学习方法: 个体学习器之间不存在强依赖关系,代表是 Bagging和随机森林
重采样方法
- 随机采样:在原来的数据集上随机采样一个子集,得到新的训练集,这就是 Bagging 族方法的做法。
- 带权采样:采样时,可以给训练集里的每个元素不同的权,权值通过上一次训练的结果来确定。这就是
Boosting 族方法的做法。
AdaBoost
关注 被错分的样本 器重 性能好的弱分类器
Bagging
随机森林
特征选择与稀疏学习
过滤式方法
- 单变量过滤方法:Singal-to-noise ratio (S2N)
- Relief
包裹式方法
嵌入式方法
Lasso回归
坐标下降法求解
坐标下降法推导
综上有:
总结
稀疏学习
xi为p*1维,B为p*k维,ai为k*1维,也就是将样本x从p维降到k维
五、非监督学习概述、贝叶斯分类器
聚类算法
- 层次聚类算法:自底而上:聚合;自顶而下:分裂
- 划分式聚类算法:给出随机化初始划分;对划分迭代优化:Kmeans、GMM
K-means
- 算法复杂度
- 聚类中心初值选择:
- 通过启发式方法选择好的初值:例如要求种子点之间有较大的距离
- 尝试多个初值 ,选择平方误差和最小的一组聚类结果
贝叶斯分类器
判别式模型:通过对 𝑃(𝑐|𝑥)直接建模预测,直接对条件概率建模,不关心背后的数据分布 𝑃(𝑥,𝑐)
生成式模型:概率分布建模
朴素贝叶斯分类器
避免0概率问题
朴素必要性
高斯朴素贝叶斯分类器
高斯分布
这里公式里的p是维度,即p维高斯
高斯朴素贝叶斯
朴素高斯必要性
高斯贝叶斯决策面
线性判别分析(LDA)
- LDA是假设协方差矩阵相同,朴素高斯和非朴素高斯的区别在于协方差矩阵是否为对角阵
LDA vs 逻辑回归
高斯朴素贝叶斯决策面
总结
- 朴素贝叶斯可以处理离散属性和可以处理连续属性
KNN
六、GMM、EM
GMM
EM算法求解
缺点
总结
七、马尔可夫链
贝叶斯网
马尔可夫链
三要素
状态转移
八、PCA
http://blog.codinglabs.org/articles/pca-tutorial.html