2021-09-06 f6ec69d796f91514753f8400f57d4439 99+ 4 m 0.5 k0 visits

常见激活函数

作用：激活函数是来向神经网络中引入非线性因素的，通过激活函数，神经网络就可以拟合各种曲线

1.sigmoid

$\begin{align*} y&=\frac{1}{1+e^{-x}} \\y^{'}&=\frac{1}{1+e^{-x}}(1-\frac{1}{1+e^{-x}})=y(1-y) \end{align*}$

一般应用在二分类的输出层

缺点：

1.sigmoid 极容易导致梯度消失问题，可以从导数曲线可以看出，绝大多数的导数值为0

2.Sigmoid 函数的输出不是以零为中心的（non-zero-centered），这会导致神经网络收敛较慢，详细原因请参考 https://liam.page/2018/04/17/zero-centered-active-function/

2.softmax

$S_i=\frac{e^i}{\sum_je^j}$

和sigmoid关系：Softmax函数是二分类函数Sigmoid在多分类上的推广

https://zhuanlan.zhihu.com/p/356976844

3.tanh

$\begin{align*} y&=tanh(x)=\frac{e^{x}-e^{-x}}{e^{x}+e^{-x}} \\y^{'}&=1-(tanh(x))^{2} \end{align*}$

优点:

1.tanh解决了sigmoid中的 zero-centered 问题

缺点：

2.对于梯度消失问题依旧无能为力。

4.Relu系列

4.1 Relu

$\begin{align*} y&=max(0,x) \\ y^{'}&=\left\{ \begin{array}{cl} 1 & \ x \ge 0 \\ 0 & \ x < 0 \\ \end{array} \right. \end{align*}$

优点:

1.可以缓解梯度消失，因为导数在正数部分是恒等于1的

缺点：

1.Relu的输出不是zero-centered

2.由于负数部分导数恒为0，会导致一些神经元无法激活，叫做Dead ReLU Problem

4.2 leaky Relu

leaky Relu就是为了解决Relu的0区间带来的影响，其数学表达为：

$\begin{align*} y&=\left\{ \begin{array}{cl} x & \ x \ge 0 \\ kx & \ x < 0 \\ \end{array} \right. \\ y^{'}&=\left\{ \begin{array}{cl} 1 & \ x \ge 0 \\ k & \ x < 0 \\ \end{array} \right. \end{align*}$

其中$k$是为超参数，一般数值较小，比如0.01

4.3 Elu

Elu激活函数也是为了解决Relu的0区间带来的影响，其数学表达为：

$\begin{align*} y&=\left\{ \begin{array}{cl} x & \ x \ge 0 \\ \alpha(e^{x}-1) & \ x < 0 \\ \end{array} \right. \\ y^{'}&=\left\{ \begin{array}{cl} 1 & \ x \ge 0 \\ \alpha e^{x} & \ x < 0 \\ \end{array} \right. \end{align*}$

Elu相对于leaky Relu来说，计算要更耗时间一些