前言Sora的视频生成技术在保真度、长度、稳定性、一致性、分辨率和文字理解等方面都达到了当前最优水平。其核心技术包括使用视觉块编码将不同格式的视频统一编码成Transformer可训练的嵌入向量,以及类似于扩散过程的UNet方法进行降维和升维的加噪与去噪操作。通过构建足够大的模型,使其具备了智能的涌现能力,例如在一定程度上理解真实世界的物理影响和因果关系。与其他视频生成模型不同,OpenAI采用了一种“大”模型的方法,即准备大量的视频数据,使用多模态模型对其进行标注,并将视频编码成统一的视觉块嵌入。然后,通过足够大的网络架构、训练批次和算力,使模型能够对大量训练数据进行全局拟合,从而更好地理解