RMSNorm论文阅读1.论文1.1RMSNorm介绍RMSNorm论文中对LayerNorm的公式做了改造。在原有LayerNorm中借助了每个layer统计的mean和variance对参数进行了调整,但RMSNorm认为re-centeringinvarianceproperty是不必要的,只用保留re-scalinginvarianceproperty。LayerNorm的计算如下:改造后的RMSNorm如下:RMS中去除了mean的统计值的使用,只使用rootmeansquare(RMS)进行归一化。1.2pRMSNorm介绍RMS具有线性特征,所以提出可以用部分数据的RMSNorm