VideoComposer_草庐IT

【论文阅读】VideoComposer: Compositional Video Synthesis with Motion Controllability

VideoComposer：具有运动可控性的合成视频。paper：[2306.02018]VideoComposer:CompositionalVideoSynthesiswithMotionControllability(arxiv.org)由阿里巴巴研发的可控视频生成框架，可以灵活地使用文本条件、空间条件和时序条件来生成视频，比如使用草图、深度图或运动向量等多个组合条件合成目标视频，极大地提高了视频灵活性和可控性。在多模态条件下进行视频生成。引入了一个时空条件编码器，允许各种条件的灵活组合。使得可以整合多个模态，如草图、遮罩、深度和运动矢量。通过利用多模态控制，可以生成更高质量的视频，更好

时间、空间可控的视频生成走进现实，阿里大模型新作VideoComposer火了

在AI绘画领域，阿里提出的Composer和斯坦福提出的基于Stablediffusion的ControlNet引领了可控图像生成的理论发展。但是，业界在可控视频生成上的探索依旧处于相对空白的状态。相比于图像生成，可控的视频更加复杂，因为除了视频内容的空间的可控性之外，还需要满足时间维度的可控性。基于此，阿里巴巴和蚂蚁集团的研究团队率先做出尝试并提出了VideoComposer，即通过组合式生成范式同时实现视频在时间和空间两个维度上的可控性。论文地址：https://arxiv.org/abs/2306.02018项目主页：https://videocomposer.github.io前段时间