草庐IT

DragNUWA

全部标签

【论文+视频控制】23.08.DragNUWA1.5:通过集成文本、图像和轨迹来进行视频生成中的细粒度控制 (24.01.08在stable video diffusion开源模型)

论文链接:DragNUWA:Fine-grainedControlinVideoGenerationbyIntegratingText,Image,andTrajectory代码:https://github.com/ProjectNUWA/DragNUWA一、简介中国科学技术大学+微软亚洲研究院在NUWA多模态模型、StableVideoDiffusion、UniMatch基础上提出的可控视频合成方法提出了同时(simultaneously)引入文本、图像和轨迹信息,从语义(semantic)、空间(spatial)和时间角度(temporalperspectives)对视频内容进行·细粒度

带你穿越清明上河图!DragNUWA惊艳亮相:一拖一拽让静图秒变视频

微软开发的视频生成模型DragNUWA让清明上河图动起来了!只要用拖动的方式给出运动轨迹,DragNUWA就能让图像中的物体对象按照该轨迹移动位置并生成连贯的视频。DragNUWA能同时控制摄像机和多个对象的移动以及复杂的轨迹,从而生成具有现实世界场景和艺术绘画特色的视频。近年来,可控视频生成技术备受关注。但现有可控视频生成仍存在两大局限:1.现有的大多数工作都集中在文本、图像或基于轨迹的控制上,导致无法在视频中实现细粒度控制。2.轨迹控制的研究仍处于早期阶段,大多数实验都是在Human3.6M等简单数据集上进行的。这种局限性限制了模型处理开域图像和有效处理复杂曲线轨迹的能力。来自微软的研究人

拖拽下图像就能生成视频,中科大、微软等DragNUWA属实惊艳

随着ChatGPT、GPT-4、LLaMa等模型的问世,人们越来越关注生成式模型的发展。相比于日渐成熟的文本生成和图像生成,视频、语音等模态的AI生成还面临着较大的挑战。现有可控视频生成工作主要存在两个问题:首先,大多数现有工作基于文本、图像或轨迹来控制视频的生成,无法实现视频的细粒度控制;其次,轨迹控制研究仍处于早期阶段,大多数实验都是在Human3.6M等简单数据集上进行的,这种约束限制了模型有效处理开放域图像和复杂弯曲轨迹的能力。基于此,来自中国科学技术大学、微软亚研和北京大学的研究者提出了一种基于开放域扩散的新型视频生成模型——DragNUWA。DragNUWA从语义、空间和时间三个角