2021-09-07 a163153037c01b910d58c60152e6ada9 99+ 3 m 0.5 k

正则化

是机器学习中对原始损失函数引入额外信息，以便防止过拟合和提高模型泛化性能的一类方法的统称。

1.L1正则（Lasso回归）

L1正则化可以使得参数稀疏化，即得到的参数是一个稀疏矩阵，可以用于特征选择。

$\begin{align*} L_{L1}(w)&=L(w)+\lambda\Vert w \Vert_1=L(w)+\lambda\sum_{i=1}^{N}|w_i| \\ \frac{\partial L_{L1}}{\partial w_i}&=\frac{\partial L}{\partial w_i}+\lambda \ sgn(w_i) \\w_i &\rightarrow w_i-\eta(\frac{\partial L}{\partial w_i}+\lambda \ sgn(w_i)) \rightarrow w_i-\eta\lambda \ sgn(w_i)-\eta\frac{\partial L}{\partial w_i} \end{align*}$

L1是每次减去一个常数的收敛，所以L1更容易收敛到0。

2.L2正则（Ridge回归）

L2正则化使得参数平滑。

$\begin{align*} L_{L2}(w)&=L(w)+\lambda\Vert w \Vert_2^2=L(w)+\lambda\sum_{i=1}^{N}w_i^2 \\ \frac{\partial L_{L2}}{\partial w_i}&=\frac{\partial L}{\partial w_i}+2\lambda w_i \\w_i& \rightarrow w_i-\eta(\frac{\partial L}{\partial w_i}+2\lambda w_i) \rightarrow(1-2\eta\lambda)w_i-\eta \frac{\partial L}{\partial w_i} \end{align*}$

L2是每次乘上一个小于1的倍数进行收敛，所以L2使得参数平滑。