一、机器学习介绍&线性、逻辑回归

什么是机器学习

要学什么—决策函数
从哪里学—训练数据
怎样学习—求解机器学习模型

针对某个任务（Task ），利用训练数据（Experience ），求
解一个学习模型，从而提高该任务的性能（Performance）

机器学习要素：

任务、目标（Task）
使用经验数据（Experience）
提高学习性能（Performance）

线性、逻辑回归

多元线性回归

损失函数几何意义：试图找到一个超平面，使所有样本到超平面上的欧式距离之和最小

梯度下降法求解

随机梯度下降法

正规方程

比较

MSE （mean square error）均方误差

F1 measure

逻辑回归

梯度上升法求解：

二、神经网络

损失

二分类损失

多分类损失

回归损失

反向传播一般情形

注意，由于$z^l$是关于l-1层权重和偏置的函数，所以对$b^{l-1}$ 求偏导，链式法则前面应该是对l层的z求偏导。

神经网络模型算法

对数似然vs二次代价

二次代价：刚开始学习的速度比较缓慢
交叉熵：刚开始学习的速度相当快，与期待一样，当严重错误时能以最快速度学习；当预测输出接近正确输出时，学习速度变慢

三、支持向量机

问题建模

求解

约束优化、对偶

SVM对偶问题

对偶问题的规模正比于训练样本数

例子

超平面法向量是支持向量的线性组合：仅支持向量的 $\alpha_i \neq0$

SVM性质

软SVM

注意，软SVM主问题中的约束多了一个 $\epsilon_i \geq 0$

软SVM对偶问题推导

软SVM高效求解

四、集成学习、特征选择

集成学习

集成方法分类

串行式集成学习：个体学习器之间存在强依赖关系，后生成的个体学习器依赖前面生成的个体学习器。代表
性算法 Boosting。
并行式集成学习方法：个体学习器之间不存在强依赖关系，代表是 Bagging和随机森林

重采样方法

随机采样：在原来的数据集上随机采样一个子集，得到新的训练集，这就是 Bagging 族方法的做法。
带权采样：采样时，可以给训练集里的每个元素不同的权，权值通过上一次训练的结果来确定。这就是
Boosting 族方法的做法。

AdaBoost

关注被错分的样本器重性能好的弱分类器

Bagging

随机森林

特征选择与稀疏学习

过滤式方法

单变量过滤方法：Singal-to-noise ratio (S2N)
Relief

包裹式方法

嵌入式方法

Lasso回归

坐标下降法求解

坐标下降法推导

综上有：

总结

稀疏学习

xi为p*1维，B为p*k维，ai为k*1维，也就是将样本x从p维降到k维

五、非监督学习概述、贝叶斯分类器

聚类算法

层次聚类算法：自底而上：聚合；自顶而下：分裂
划分式聚类算法：给出随机化初始划分；对划分迭代优化：Kmeans、GMM

K-means

算法复杂度

聚类中心初值选择：
- 通过启发式方法选择好的初值：例如要求种子点之间有较大的距离
- 尝试多个初值，选择平方误差和最小的一组聚类结果

贝叶斯分类器

判别式模型：通过对 𝑃(𝑐|𝑥)直接建模预测，直接对条件概率建模，不关心背后的数据分布 𝑃(𝑥,𝑐)
生成式模型：概率分布建模

朴素贝叶斯分类器

避免0概率问题

朴素必要性

高斯朴素贝叶斯分类器

高斯分布

这里公式里的p是维度，即p维高斯

高斯朴素贝叶斯

朴素高斯必要性

高斯贝叶斯决策面

线性判别分析（LDA）

LDA是假设协方差矩阵相同，朴素高斯和非朴素高斯的区别在于协方差矩阵是否为对角阵

LDA vs 逻辑回归

高斯朴素贝叶斯决策面

总结

朴素贝叶斯可以处理离散属性和可以处理连续属性

KNN

六、GMM、EM

GMM

EM算法求解

缺点

总结

七、马尔可夫链

贝叶斯网

马尔可夫链

三要素
状态转移

八、PCA

http://blog.codinglabs.org/articles/pca-tutorial.html

https://croook.github.io/2020/04/08/%E7%BA%BF%E6%80%A7%E4%BB%A3%E6%95%B0%E3%80%81%E6%A6%82%E7%8E%87%E8%AE%BA/

一、机器学习介绍&线性、逻辑回归

什么是机器学习

线性、逻辑回归

多元线性回归

梯度下降法求解

随机梯度下降法

正规方程

比较

F1 measure

逻辑回归

二、神经网络

损失

二分类损失

多分类损失

回归损失

反向传播一般情形

神经网络模型算法

对数似然vs二次代价

三、支持向量机

问题建模

求解

约束优化、对偶

SVM对偶问题

例子

SVM性质

软SVM

软SVM对偶问题推导

软SVM高效求解

四、集成学习、特征选择

集成学习

集成方法分类

重采样方法

AdaBoost

Bagging

随机森林

特征选择与稀疏学习

过滤式方法

包裹式方法

嵌入式方法

Lasso回归

坐标下降法求解

坐标下降法推导

总结

稀疏学习

五、非监督学习概述、贝叶斯分类器

聚类算法

K-means

贝叶斯分类器

朴素贝叶斯分类器

避免0概率问题

朴素必要性

高斯朴素贝叶斯分类器

高斯分布

高斯朴素贝叶斯

朴素高斯必要性

高斯贝叶斯决策面

线性判别分析（LDA）

LDA vs 逻辑回归

高斯朴素贝叶斯决策面

总结

KNN

六、GMM、EM

GMM

EM算法求解

缺点

总结

七、马尔可夫链

贝叶斯网

马尔可夫链

八、PCA

SVD

方法

概率PCA

PCA EM算法

核PCA

LLE

t-SNE