草庐IT

Meta 发布 Megabyte AI 模型抗衡 Transformer:解决后者已知问题、速度提升四成

5月30日消息,近日Meta团队开发了一款名为Megabyte的AI模型以抗衡Transformer,据称Megabyte解决了Transformer模型所面临的问题,并且在速度上提升了40%。▲ 图源Arxiv目前Transformer在自然语言处理等领域非常流行,但由于其序列数据的处理方式是逐步进行的,无法并行化处理,因此训练速度较慢;难以处理长序列,因为其在反向传播过程中,梯度很容易消失或爆炸;此外,由于需要在每一步保留历史信息,内存消耗较大。而Megabyte模型将输入和输出序列划分为patch,而不是单个的token。这种架构使得对大多数任务而言字节级别的预测相对容易,例如根据前几个