西瓜书机器学习_三章

线性模型的向量形式：

线性回归（最小二乘法）

对于一个数据集，样本由个属性描述，通过求解和，使得。采用最小二乘法可求得：

当为满秩矩阵或正定矩阵时，令上式等于0，可求得：

当不满秩时，可能出现多解，此时需要依靠算法的归纳偏好决定模型的取舍，常见做法为引入正则化项。

更一般的广义线性模型（例如对数线性模型）：

对数几率回归（通过Sigmoid函数将线性回归的输出值转换为0/1值）

一个常用的Sigmoid函数为对数几率函数（logistic function）：

其中，其对应的广义线性模型形式为：

若将视作样本是正例的可能性，则是反例的可能性，两者的比值称作几率：

则有：

通过极大似然法可对和。

线性判别分析（Linear Discriminant Analysis, LDA）

LDA通过将训练集样例投影到一条直线上，使得同类样例的投影尽可能接近、异类样例的投影尽可能远离；对新样本进行分类时，将其投影到该直线上，根据投影点的位置确定其类别。

令、、分别表示第类示例的集合、均值向量和协方差矩阵。

类内散度矩阵：

类间散度矩阵：

则LDA的最大化目标为：

利用拉格朗日乘数法可求得：

当两类数据同先验、满足高斯分布且协方差相等时，LDA可达到最优分类。

LDA在多分类任务中的推广

（假定存在N个类，第类示例数为，所有实例的均值向量）

全局散度矩阵：

类内散度矩阵：

类间散度矩阵：

LDA是一种经典的监督降维技术。

多分类学习（基本思路为：将多分类任务拆为若干个二分类任务求解）

最经典的拆分策略：一对一（OvO）、一对其余（OvR）、多对多（MvM）

OvO的存储开销和测试时间开销一般比OvR更大，但训练时间开销前者一般更小。

纠错输出码（ECOC）是一种常用的MvM技术。一般对于同一个学习任务，ECOC编码越长，纠错能力越强，但所需训练的分类器越多，计算与存储开销就越大；此外对有限类别数，可能的组合数目是有限的，码长超过一定范围后就失去了意义。

类别不平衡问题

（原始问题不同类别的训练样例数相差较大，或拆分数据集导致某些类别的训练样例数相差较大）

再缩放是不平衡类别学习的一个基本策略：

但观测几率不一定能够准确推断出真实几率，因此目前真正常使用的技术有：

欠采样：样例数目较多的类别舍弃部分样例，使得不同类别样例数目相当；
过采样：样例数目较少的类别增加部分样例，使得不同类别样例数目相当；
阈值移动：基于原始训练集训练，但决策时使用再缩放，即当时，预测为正例。

作者:CNGauss原文地址:https://blog.csdn.net/CNGauss/article/details/128752491

2023-02-04

%s 个评论

要回复文章请先登录或注册