最近,OpenAI视频生成模型Sora的爆火,给基于Transformer的扩散模型重新带来了一波热度,比如Sora研发负责人之一WilliamPeebles与纽约大学助理教授谢赛宁去年提出的DiT(DiffusionTransformer)。当然,随着视频生成这波AI趋势的继续演进,类似架构的模型会越来越多。就在昨天,开发出SnapChat图片分享软件的Snap公司、特伦托大学等机构联合发布了类似Sora的文本生成视频模型SnapVideo,这次他们使用到了可扩展的时空Transformer。相关的论文《SnapVideo:ScaledSpatiotemporalTransformersfo