草庐IT

激活函数ReLU和SiLU的区别

文章目录前言ReLU(RectifiedLinearUnit)LeakyReLUFReLU(FlattenReLU)SiLU(SigmoidLinearUnit)总结前言在这里,我就简单写一下两个激活函数的概念以及区别,详细的过程可以看看其他优秀的博主,他们写的已经非常好了,我就不必再啰嗦了。ReLU(RectifiedLinearUnit)和SiLU(SigmoidLinearUnit)都是常用的激活函数,它们的主要区别在于非线性形状不同。ReLU(RectifiedLinearUnit)概念:ReLU函数在输入大于0时直接输出,否则输出0。它的数学形式为f(x)=max(0,x),可以看作

深度学习网络各种激活函数 Sigmoid、Tanh、ReLU、Leaky_ReLU、SiLU、Mish

激活函数的目的就是为网络提供非线性化梯度消失:梯度为0,无法反向传播,导致参数得不到更新梯度饱和:随着数据的变化,梯度没有明显变化梯度爆炸:梯度越来越大,无法收敛梯度消失问题:1、反向传播链路过长,累积后逐渐减小2、数据进入梯度饱和区如何解决:1、选正确激活函数,relu,silu2、BN归一化数据3、resnet较短反向传播路径4、LSTM记忆网络1、Sigmoid函数和导数:特点:落入两端的数据导数趋于0,造成梯度消失,用在深度网络难以收敛。用BN批量归一化可以优化此问题。2、Tanh函数和导数:特点:和sigmoid差不多,就是映射区间不同而已。3、ReLU特点:简单粗暴,解决梯度消失问