色拉_草庐IT

最近，OpenAI视频生成模型Sora的爆火，给基于Transformer的扩散模型重新带来了一波热度，比如Sora研发负责人之一WilliamPeebles与纽约大学助理教授谢赛宁去年提出的DiT（DiffusionTransformer）。当然，随着视频生成这波AI趋势的继续演进，类似架构的模型会越来越多。就在昨天，开发出SnapChat图片分享软件的Snap公司、特伦托大学等机构联合发布了类似Sora的文本生成视频模型SnapVideo，这次他们使用到了可扩展的时空Transformer。相关的论文《SnapVideo:ScaledSpatiotemporalTransformersfo