西瓜书机器学习_三章

线性模型的向量形式:

线性回归(最小二乘法)

对于一个数据集,样本由个属性描述,通过求解,使得 。采用最小二乘法可求得:

为满秩矩阵或正定矩阵时,令上式等于0,可求得:

不满秩时,可能出现多解,此时需要依靠算法的归纳偏好决定模型的取舍,常见做法为引入正则化项。

更一般的广义线性模型(例如对数线性模型):

对数几率回归(通过Sigmoid函数将线性回归的输出值转换为0/1值)

一个常用的Sigmoid函数为对数几率函数(logistic function):

其中 ,其对应的广义线性模型形式为:

若将视作样本是正例的可能性,则是反例的可能性,两者的比值称作几率:

则有:

通过极大似然法可对

线性判别分析(Linear Discriminant Analysis, LDA)

LDA通过将训练集样例投影到一条直线上,使得同类样例的投影尽可能接近、异类样例的投影尽可能远离;对新样本进行分类时,将其投影到该直线上,根据投影点的位置确定其类别。

分别表示第类示例的集合、均值向量和协方差矩阵。

类内散度矩阵:

类间散度矩阵:

则LDA的最大化目标为:

利用拉格朗日乘数法可求得:

当两类数据同先验、满足高斯分布且协方差相等时,LDA可达到最优分类。

 

LDA在多分类任务中的推广

(假定存在N个类,第类示例数为,所有实例的均值向量

全局散度矩阵:

类内散度矩阵:

类间散度矩阵:

LDA是一种经典的监督降维技术。

多分类学习(基本思路为:将多分类任务拆为若干个二分类任务求解)

最经典的拆分策略:一对一(OvO)、一对其余(OvR)、多对多(MvM)

OvO的存储开销和测试时间开销一般比OvR更大,但训练时间开销前者一般更小。

纠错输出码(ECOC)是一种常用的MvM技术。一般对于同一个学习任务,ECOC编码越长,纠错能力越强,但所需训练的分类器越多,计算与存储开销就越大;此外对有限类别数,可能的组合数目是有限的,码长超过一定范围后就失去了意义。

类别不平衡问题

(原始问题不同类别的训练样例数相差较大,或拆分数据集导致某些类别的训练样例数相差较大)

再缩放是不平衡类别学习的一个基本策略:

但观测几率不一定能够准确推断出真实几率,因此目前真正常使用的技术有:

  • 欠采样:样例数目较多的类别舍弃部分样例,使得不同类别样例数目相当;
  • 过采样:样例数目较少的类别增加部分样例,使得不同类别样例数目相当;
  • 阈值移动:基于原始训练集训练,但决策时使用再缩放,即当时,预测为正例。
作者:CNGauss原文地址:https://blog.csdn.net/CNGauss/article/details/128752491

%s 个评论

要回复文章请先登录注册