彻底学会系列:一、机器学习之线性回归(二)

0. 概念和公式

请参考:一、机器学习之线性回归(一)

1. 涉及公式

1.1 简单线性回归

y

=

w

x

+

b

y = wx + b

y=wx+b

1.2 多元线性回归

y

^

=

w

1

X

1

+

w

2

X

2

.

.

.

w

n

X

n

+

w

0

\hat y = w_1X_1 + w_2X_2 … w_nX_n + w_0

y^​=w1​X1​+w2​X2​…wn​Xn​+w0​

向量表示:

y

^

=

W

T

X

\hat y = W^TX

y^​=WTX

1.3 高斯密度函数

 

f

(

x

;

μ

,

σ

2

)

=

1

2

π

σ

exp

(

(

x

μ

)

2

2

σ

2

)

\ f(x; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)

 f(x;μ,σ2)=2π
​σ1​exp(−2σ2(x−μ)2​)

1.4 最大似然估计

连乘:

 

L

(

θ

data

)

=

i

=

1

n

P

(

X

i

;

θ

)

\ L(\theta | \text{data}) = \prod_{i=1}^{n} P(X_i; \theta)

 L(θ∣data)=∏i=1n​P(Xi​;θ)

对数:

 

(

θ

data

)

=

i

=

1

n

log

P

(

X

i

;

θ

)

\ \ell(\theta | \text{data}) = \sum_{i=1}^{n} \log P(X_i; \theta)

 ℓ(θ∣data)=∑i=1n​logP(Xi​;θ)

1.5 最小二乘法

J

(

θ

)

=

1

2

i

=

1

n

(

h

θ

(

x

i

)

y

i

)

2

J(\theta) = \frac{1}{2} \sum_{i=1}^{n} (h_\theta(x_i) – y_i)^2

J(θ)=21​∑i=1n​(hθ​(xi​)−yi​)2

1.6 正规方程

θ

=

(

X

T

X

)

1

X

T

y

\theta = (X^T X)^{-1} X^T y

θ=(XTX)−1XTy

1.7 均方误差

MSE

=

1

n

i

=

1

n

(

h

θ

(

x

i

)

y

i

)

2

\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (h_\theta(x_i) – y_i)^2

MSE=n1​∑i=1n​(hθ​(xi​)−yi​)2

2. 公式推导(不考虑多项式)

2.1 解决问题

  1. 建模问题:

    目标: 描述变量之间的线性关系。

    问题描述: 给定一组观测数据

    (

    x

    1

    ,

    y

    1

    )

    ,

    (

    x

    2

    ,

    y

    2

    )

    ,

    .

    .

    .

    ,

    (

    x

    n

    ,

    y

    n

    )

    (x_1, y_1), (x_2, y_2), …, (x_n, y_n)

    (x1​,y1​),(x2​,y2​),…,(xn​,yn​),其中 (x) 是自变量,(y) 是因变量,线性回归的目标是找到一条直线

    y

    =

    θ

    0

    +

    θ

    1

    x

    y = \theta_0 + \theta_1 x

    y=θ0​+θ1​x,使得这条直线最好地拟合给定的数据点。其中,

    θ

    0

    \theta_0

    θ0​ 是截距,

    θ

    1

    \theta_1

    θ1​ 是斜率。

    解法: 通过最小化均方误差(MSE)来找到最优的参数

    θ

    \theta

    θ。这等价于解一个线性方程系统,其中涉及到对参数的偏导数等于零,或者使用正规方程(Normal Equations)。

    J

    (

    θ

    )

    θ

    0

    =

    0

    \frac{\partial J(\theta)}{\partial \theta_0} = 0

    ∂θ0​∂J(θ)​=0

    J

    (

    θ

    )

    θ

    1

    =

    0

    \frac{\partial J(\theta)}{\partial \theta_1} = 0

    ∂θ1​∂J(θ)​=0

  2. 预测问题:

    目标: 使用模型进行未知变量的预测。

    问题描述: 在建立了线性回归模型后,我们希望利用这个模型对未知数据进行预测。例如,给定新的

    x

    x

    x 值,我们希望预测对应的

    y

    y

    y 值。

    解法: 使用建立好的线性回归模型,将未知

    x

    x

    x 值代入模型,得到预测的

    y

    y

    y 值。

    y

    ^

    =

    θ

    0

    +

    θ

    1

    x

    \hat{y} = \theta_0 + \theta_1 x

    y^​=θ0​+θ1​x

2.2 误差分析

误差计算:

ε

i

=

y

i

y

^

\varepsilon_i = |y_i – \hat y |

εi​=∣yi​−y^​∣

向量写法:

ε

i

=

y

i

W

T

x

i

\varepsilon_i = |y_i – W^T x_i |

εi​=∣yi​−WTxi​∣

ε

i

\varepsilon_i

εi​为误差

y

i

y_i

yi​为样本实际值

y

^

\hat y

y^​为预测值

假定所有的样本的误差都是独立的,上下的震荡,叠加之后形成的分布,它服从正态分布(高斯分布),服从均值为 0,方差为某定值的高斯分布。

2.3 误差分析 到 高斯密度函数

高斯密度函数(正态分布)公式:

 

f

(

x

;

μ

,

σ

2

)

=

1

2

π

σ

exp

(

(

x

μ

)

2

2

σ

2

)

\ f(x; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)

 f(x;μ,σ2)=2π
​σ1​exp(−2σ2(x−μ)2​)

μ

\mu

μ :均值,为0

σ

2

\sigma^2

σ2 :方差

x

x

x:误差变量

ε

i

\varepsilon_i

εi​

公式简化:

 

f

(

ε

i

μ

=

0

,

σ

2

)

=

1

2

π

σ

exp

(

(

ε

i

0

)

2

2

σ

2

)

\ f(\varepsilon_i|\mu=0, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(\varepsilon_i-0)^2}{2\sigma^2}\right)

 f(εi​∣μ=0,σ2)=2π
​σ1​exp(−2σ2(εi​−0)2​)

 

f

(

ε

i

0

,

σ

2

)

=

1

2

π

σ

exp

(

ε

i

2

2

σ

2

)

\ f(\varepsilon_i|0, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{\varepsilon_i^2}{2\sigma^2}\right)

 f(εi​∣0,σ2)=2π
​σ1​exp(−2σ2εi2​​)

2.4 高斯密度函数 到 最大似然估计

有:

 

f

(

ε

i

0

,

σ

2

)

=

1

2

π

σ

exp

(

ε

i

2

2

σ

2

)

\ f(\varepsilon_i|0, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{\varepsilon_i^2}{2\sigma^2}\right)

 f(εi​∣0,σ2)=2π
​σ1​exp(−2σ2εi2​​)

P

=

i

=

1

n

f

(

ε

i

0

,

σ

2

)

=

i

=

1

n

1

2

π

σ

exp

(

ε

i

2

2

σ

2

)

P= \prod_{i=1}^{n}f(\varepsilon_i|0, \sigma^2)=\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{\varepsilon_i^2}{2\sigma^2}\right)

P=∏i=1n​f(εi​∣0,σ2)=∏i=1n​2π
​σ1​exp(−2σ2εi2​​)

有:

ε

i

=

y

i

W

T

x

i

\varepsilon_i = |y_i – W^T x_i |

εi​=∣yi​−WTxi​∣

最大似然估计:

P

=

i

=

1

n

1

2

π

σ

exp

(

y

i

W

T

x

i

)

2

2

σ

2

)

P= \prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(y_i – W^T x_i )^2}{2\sigma^2}\right)

P=∏i=1n​2π
​σ1​exp(−2σ2(yi​−WTxi​)2​)

2.5 最大似然估计 到 最小二乘法

有:

P

=

i

=

1

n

1

2

π

σ

exp

(

y

i

W

T

x

i

)

2

2

σ

2

)

P= \prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(y_i – W^T x_i )^2}{2\sigma^2}\right)

P=∏i=1n​2π
​σ1​exp(−2σ2(yi​−WTxi​)2​)

对数运算:

l

o

g

e

(

P

)

=

l

o

g

e

[

i

=

1

n

1

2

π

σ

exp

(

y

i

W

T

x

i

)

2

2

σ

2

)

]

log_e(P)= log_e\left[\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(y_i – W^T x_i )^2}{2\sigma^2}\right)\right]

loge​(P)=loge​[∏i=1n​2π
​σ1​exp(−2σ2(yi​−WTxi​)2​)]

累乘变成累加:

l

o

g

e

(

P

)

=

l

o

g

e

[

i

=

1

n

1

2

π

σ

exp

(

y

i

W

T

x

i

)

2

2

σ

2

)

]

log_e(P)= log_e\left[\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(y_i – W^T x_i )^2}{2\sigma^2}\right)\right]

loge​(P)=loge​[∏i=1n​2π
​σ1​exp(−2σ2(yi​−WTxi​)2​)]

=

i

=

1

n

l

o

g

e

[

1

2

π

σ

exp

(

y

i

W

T

x

i

)

2

2

σ

2

)

]

= \sum_{i=1}^{n}log_e\left[\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(y_i – W^T x_i )^2}{2\sigma^2}\right)\right]

=∑i=1n​loge​[2π
​σ1​exp(−2σ2(yi​−WTxi​)2​)]

=

i

=

1

n

[

l

o

g

e

1

2

π

σ

y

i

W

T

x

i

)

2

2

σ

2

]

= \sum_{i=1}^{n}\left[log_e\frac{1}{\sqrt{2\pi}\sigma} -\frac{(y_i – W^T x_i )^2}{2\sigma^2}\right]

=∑i=1n​[loge​2π
​σ1​−2σ2(yi​−WTxi​)2​]

=

i

=

1

n

[

l

o

g

e

1

2

π

σ

1

2

.

1

σ

2

.

(

y

i

W

T

x

i

)

2

]

= \sum_{i=1}^{n}\left[log_e\frac{1}{\sqrt{2\pi}\sigma} -\frac{1}{2}. \frac{1}{\sigma^2}.(y_i – W^T x_i)^2\right]

=∑i=1n​[loge​2π
​σ1​−21​.σ21​.(yi​−WTxi​)2]

最大似然求对数后,

π

σ

\pi 、\sigma

π、σ都是常量,可忽略,

(

y

i

W

T

x

i

)

2

(y_i – W^T x_i)^2

(yi​−WTxi​)2肯定大于零。求最大值问题,转变为求最小值问题(求减式后边的值):

 

L

(

θ

data

)

=

1

2

.

i

=

1

n

(

y

i

W

T

x

i

)

2

\ L(\theta | \text{data}) = \frac{1}{2}.\sum_{i=1}^{n} (y_i – W^T x_i)^2

 L(θ∣data)=21​.∑i=1n​(yi​−WTxi​)2

可写成最小二乘法:

h

θ

(

x

i

)

=

W

T

x

i

h_\theta(x_i) = W^T x_i

hθ​(xi​)=WTxi​

J

(

θ

)

=

1

2

i

=

1

n

(

h

θ

(

x

i

)

y

i

)

2

J(\theta) = \frac{1}{2} \sum_{i=1}^{n} (h_\theta(x_i) – y_i )^2

J(θ)=21​∑i=1n​(hθ​(xi​)−yi​)2

2.6 最小二乘法 到 正规方程

有:

J

(

θ

)

=

1

2

i

=

1

n

(

h

θ

(

x

i

)

y

i

)

2

J(\theta) = \frac{1}{2} \sum_{i=1}^{n} (h_\theta(x_i) – y_i )^2

J(θ)=21​∑i=1n​(hθ​(xi​)−yi​)2

可写成:

J

(

θ

)

=

1

2

(

X

θ

y

i

)

T

(

X

θ

y

i

)

J(\theta) = \frac{1}{2}(X\theta – y_i)^T(X\theta – y_i)

J(θ)=21​(Xθ−yi​)T(Xθ−yi​)

J

(

θ

)

=

1

2

(

θ

T

X

T

y

i

T

)

(

X

θ

y

i

)

J(\theta) = \frac{1}{2}(\theta^TX^T – y_i^T)(X\theta – y_i)

J(θ)=21​(θTXT−yiT​)(Xθ−yi​)

J

(

θ

)

=

1

2

(

θ

T

X

T

X

θ

θ

T

X

T

y

i

y

i

T

X

θ

+

y

T

y

i

)

J(\theta) = \frac{1}{2}(\theta^TX^TX\theta -\theta^TX^Ty_i – y_i^TX\theta + y^Ty_i)

J(θ)=21​(θTXTXθ−θTXTyi​−yiT​Xθ+yTyi​)

进行求导(注意X、y是已知量,

θ

\theta

θ是未知数)

J

(

θ

)

=

1

2

(

θ

T

X

T

X

θ

θ

T

X

T

y

i

y

i

T

X

θ

+

y

T

y

i

)

J'(\theta) = \frac{1}{2}(\theta^TX^TX\theta -\theta^TX^Ty_i – y_i^TX\theta + y^Ty_i)’

J′(θ)=21​(θTXTXθ−θTXTyi​−yiT​Xθ+yTyi​)′

J

(

θ

)

=

X

T

(

X

θ

y

)

J'(\theta) = X^T(X\theta – y)

J′(θ)=XT(Xθ−y)

令导数为0:

0

=

X

T

(

X

θ

y

)

0 = X^T(X\theta – y)

0=XT(Xθ−y)

X

T

X

θ

=

X

T

y

X^TX\theta = X^Ty

XTXθ=XTy

两边乘逆矩阵

(

X

T

X

)

1

(X^TX)^{-1}

(XTX)−1进行转化,

I

I

I 单位矩阵为1:

(

X

T

X

)

1

X

T

X

θ

=

(

X

T

X

)

1

X

T

y

(X^TX)^{-1}X^TX\theta = (X^TX)^{-1}X^Ty

(XTX)−1XTXθ=(XTX)−1XTy

I

θ

=

(

X

T

X

)

1

X

T

y

I\theta = (X^TX)^{-1}X^Ty

Iθ=(XTX)−1XTy

最小二乘法:

θ

=

(

X

T

X

)

1

X

T

y

\theta = (X^TX)^{-1}X^Ty

θ=(XTX)−1XTy

2.7 最小二乘法 和 均方误差

J

(

θ

)

=

1

2

i

=

1

n

(

h

θ

(

x

i

)

y

i

)

2

J(\theta) = \frac{1}{2} \sum_{i=1}^{n} (h_\theta(x_i) – y_i)^2

J(θ)=21​∑i=1n​(hθ​(xi​)−yi​)2

MSE

=

1

n

i

=

1

n

(

h

θ

(

x

i

)

y

i

)

2

\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (h_\theta(x_i) – y_i)^2

MSE=n1​∑i=1n​(hθ​(xi​)−yi​)2

相似但用处不同:

J

(

θ

)

J(θ)

J(θ) : 模型训练的损失函数,通过梯度下降等优化算法最小化代价函数

MSE

\text{MSE}

MSE: 评估模型的性能,衡量模型的预测值与真实值之间的平均平方误差

本文来自网络,不代表协通编程立场,如若转载,请注明出处:https://net2asp.com/a099684f97.html