SiLU_草庐IT

激活函数ReLU和SiLU的区别

文章目录前言ReLU（RectifiedLinearUnit）LeakyReLUFReLU（FlattenReLU）SiLU（SigmoidLinearUnit）总结前言在这里，我就简单写一下两个激活函数的概念以及区别，详细的过程可以看看其他优秀的博主，他们写的已经非常好了，我就不必再啰嗦了。ReLU（RectifiedLinearUnit）和SiLU（SigmoidLinearUnit）都是常用的激活函数，它们的主要区别在于非线性形状不同。ReLU（RectifiedLinearUnit）概念：ReLU函数在输入大于0时直接输出，否则输出0。它的数学形式为f(x)=max(0,x)，可以看作

深度学习网络各种激活函数 Sigmoid、Tanh、ReLU、Leaky_ReLU、SiLU、Mish

激活函数的目的就是为网络提供非线性化梯度消失：梯度为0，无法反向传播，导致参数得不到更新梯度饱和：随着数据的变化，梯度没有明显变化梯度爆炸：梯度越来越大，无法收敛梯度消失问题：1、反向传播链路过长，累积后逐渐减小2、数据进入梯度饱和区如何解决：1、选正确激活函数，relu,silu2、BN归一化数据3、resnet较短反向传播路径4、LSTM记忆网络1、Sigmoid函数和导数：特点：落入两端的数据导数趋于0，造成梯度消失，用在深度网络难以收敛。用BN批量归一化可以优化此问题。2、Tanh函数和导数：特点：和sigmoid差不多，就是映射区间不同而已。3、ReLU特点：简单粗暴，解决梯度消失问