草庐IT

SwiGLU论文阅读

1.论文1.1背景知识SwiGLU是2019年提出的新的激活函数,它结合了SWISH和GLU两者的特点。1.1.1SWISH:ASELF-GATEDACTIVATIONFUNCTIONSWISH激活函数的定义如下,其中σ(x)是sigmoid函数f(x)=x·σ(x)σ(x)=(1+exp(−x))^(-1)SWISH激活函数是光滑且非单调,在x大于0时f(x)无上限,在x小于0时f(x)有下限,图如下:其他激活函数对比如下:SWISH激活函数的一次求导结果为:f'(x)=σ(x)+x·σ(x)(1−σ(x))=σ(x)+x·σ(x)−x·σ(x)=x·σ(x)+σ(x)(1−x·σ(x))=