机器学习西瓜书学习记录-第三章 线性模型

第3章 线性模型

3.1基本形式
给定d个属性描述的示例x=(

x

1

x_1

x1;

x

2

x_2

x2;…;

x

d

x_d

xd),

x

i

x_i

xi为x在第i个属性上的取值。
线性模型试图学得一个通过属性的线性组合来进行预测的函数
在这里插入图片描述
也可写为(其中w=(

w

1

w_1

w1;

w

2

w_2

w2;…;

w

d

w_d

wd) 注意是分号,故为列向量)
在这里插入图片描述
w,b学得之后,模型得以确定
w直观表达了各属性在预测中的重要性
3.2线性回归
1、特殊情形-当属性数目只有一个时。
(若为离散属性,属性值间有“序”关系,可通过连续化将其转化为连续值。如三值属性"高度"的取值"高" “中” "低"可转化为 {1,0.5,0.0};若属性值间不存在“序”关系,有k个属性值,常转化为k维向量。如属性“瓜类”取值“西瓜”“南瓜”“黄瓜”转化为(0,0,1),(0,1,0),(1,0,0))
在这里插入图片描述
以均方误差(对应欧氏距离)为性能度量,试图让其最小化从而确定w,b
w*, b* 表示w和b的解
在这里插入图片描述
基于均方误差最小化进行模型求解的方法称为“最小二乘法”(试图找到一条直线,使得所有样本到直线上的欧氏距离之和最小)。求解过程称为线性回归模型的最小二乘“参数估计”。
在这里插入图片描述

E

(

w

,

b

)

E_{(w,b)}

E(w,b)分别对w,b求导得
在这里插入图片描述
令其为零可得w,b最优解的闭式解
在这里插入图片描述
在这里插入图片描述
2、更一般情形“多元线性回归”-样本有d个属性描述,此时
在这里插入图片描述
数据集D表示为一个m×(d+1)大小的矩阵X(m个样本,d个属性)
在这里插入图片描述
把w和b置于向量一个向量形式

w

^

=

(

w

;

b

)

\hat{w}=(w;b)

w^=(w;b)
将标记记为向量y
在这里插入图片描述
故而可得
在这里插入图片描述
在这里插入图片描述
可见

w

^

=

(

w

;

b

)

\hat{w}=(w;b)

w^=(w;b)的解满足
在这里插入图片描述
求解过程
在这里插入图片描述
令上式为零可得

w

^

\hat{w}

w^最优解的闭式解。
此处的讨论还没太看懂-简单记录

X

T

X

X^TX

XTX不是满秩矩阵时,可能解出多个

w

^

\hat{w}

w^,他们都可以使均方误差最小化。此时选择哪个解作为输出,由学习算法的归纳偏好决定,常见做法是引入正则化项。
简写线性回归模型
在这里插入图片描述假设我们认为示例所对应的输出标记是在指数尺度上变化,那就可将输出标记的对数作为线性模型逼近的目标
在这里插入图片描述
即“对数线性回归”。实际上是在试图让

e

w

T

+

b

e^{w^T+b}

ewT+b逼近y.
可见形式上仍是线性回归,但是实质上已是在求取输入空间到输出空间的非线性函数映射。
总结“广义线性模型”
在这里插入图片描述
单调可微函数 g(.)称为“联系函数”, g(.)连续且充分光滑
通俗理解广义线性模型
在这里插入图片描述
3.3对数几率回归
前述讲述如何使用线性模型进行回归学习,若面对分类任务呢?考虑广义线性模型中,需找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来。
如二分类任务,输出标记

y

{

0

,

1

}

y\in\{0,1\}

y{0,1},而线性回归模型产生预测值

z

=

w

T

x

+

b

z=w^Tx+b

z=wTx+b是实值,因此需要将实值z转换为0/1值。
在这里插入图片描述
首选“单位阶跃函数”,但是该函数不连续,故不可用
其次,对数几率函数,可将z值转化为一个接近0 或1 的y值
在这里插入图片描述
带入

z

=

w

T

x

+

b

z=w^Tx+b

z=wTx+b
在这里插入图片描述
在这里插入图片描述
将y视为样本x作为正例的可能性,则1-y是其反例可能性,两者的比值

y

1

y

\frac{y}{1-y}

1yy称为“几率”,反映了x作为正例的相对可能性。几率取对数得“对数几率”

l

n

y

1

y

ln\frac{y}{1-y}

ln1yy.。
故而实际是用线性回归模型的预测结果去逼近真实标记的对数几率,故称模型为“对数几率回归”。
求解过程-该部分还没太看懂
3.4线性判别分析
LDA是一种经典的线性学习方法,也称“Fisher判别分析”
LDA思想:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。二维示意图如下
在这里插入图片描述
未完待续…
3.5多分类学习

区块链

3.6类别不平衡

添加

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注