草庐IT

AI自动生成国风视频海外引关注,百度文心大模型助力AIGC智能创作

百度大脑 2024-01-03 原文

“风吹仙袂飘飖举,犹似霓裳羽衣舞。”去年河南卫视的春晚舞蹈《唐宫夜宴》和央视虎年春晚舞蹈《只此青绿》都爆火出圈,令无数人梦回大唐。近日,在美国波士顿举办的科技峰会 EmTech Digital 上,也有一支中国风视频受到与会者的瞩目,纷纷感叹中国传统文化的巨大魅力。

更受关注的是,这支名为“虎年春晚上的中国文化”的两分钟技术演示视频,是依托大模型技术由 AI 自动生成的,背后的技术来自百度研究院的智能视频合成平台 VidPress。为了更好地体现“国风”,由 VidPress 自动化制作的视频不但画面生动丰富,还使用中国传统乐器古筝作为背景音乐,并配以自动语音合成的解说进行生动解读。

在 EmTech Digital 科技峰会上,作为现场唯一受邀的中国科技公司,百度美国研发中心副总经理李幸在演讲中详细解读了 VidPress 背后的技术。由百度研究院孵化的 VidPress 是业界首个支撑通用型、大规模生产的智能视频合成平台,用户仅需一键输入新闻图文内容链接,就可以自动化完成视频制作,整套制作流程在数分钟内即可全部完成。

VidPress 原理揭秘

五大步骤实现图文自动转视频

VidPress 的工作原理和剪辑师制作视频的步骤类似:先准备文字脚本,然后收集媒体素材,再将素材处理成视频片段,将脚本配音和视频进行对齐,最后进行编辑和检查。通过 AI 技术,VidPress 可以实现文字分析和摘要、视频内容搜索、素材智能化处理、音视频对齐,以及智能剪辑等5个步骤的自动化。

用户输入图文内容后,例如输入某条新闻事件的链接,平台将利用多个自然语言处理模型对文字内容进行分析。通过文字摘要模型,平台可以自动生成一篇字数符合要求且适合视频呈现的解说词,并通过百度文字转音频服务(TTS)合成解说词语音;通过语义理解模型,平台识别故事中的关键信息,包括主题、段落主旨、核心人物或者机构等。

随后,平台会根据对原文的理解,通过自有视频库和精准搜索能力,智能化聚合最新最适合呈现的内容,以及从同一主题相关新闻里抽取更多的素材及其语义表征,充分保障素材内容的丰富度和相关性。对于收集到的视频素材,平台基于图像识别、视频内容理解等计算机视觉技术进一步解析和理解,自动剪切和精选视频素材。

音视频对齐剪辑是关键的一步。最直接的处理方式是将故事中的每一句话作为一个搜索目标,寻找对应的视频片段并拼接起来,但用户真正关注的是故事中的关键点,技术上称为兴趣锚点(anchor point)。通过 VidPress 特有的时间轴对齐算法,选取出文本中的兴趣锚点,再将媒体片段与兴趣锚点进行相关度打分,将优质媒体片段优先放入时间轴,并结合适当的素材搭配组织,以此保证视频的整体观感和用户兴趣的持续激发。当时间轴生成完毕之后,数据转交给渲染器,从而生成一个完成的视频。

文心大模型助力 VidPress

打开 AIGC 智能创作想象空间

VidPress 使用了大量自然语言处理技术对图文内容进行分析,而这些技术离不开百度文心大模型的支持。

去年12月,百度与鹏城实验室联合发布双方共同研发的全球首个知识增强千亿大模型——鹏城-百度·文心(模型版本号:ERNIE 3.0 Titan),模型参数规模达到2600亿,是目前全球最大中文单体模型,致力于解决传统 AI 模型泛化性差、强依赖于昂贵的人工标注数据、落地成本高等应用难题,降低 AI 开发与应用门槛。

鹏城-百度·文心在机器阅读理解、文本分类、语义相似度计算等60多项任务中取得最好效果,并大幅刷新小样本学习任务基准。VidPress 平台的文本摘要和语义分析模型都是基于文心大模型训练的结果。

此外,VidPress 还使用了文心跨模态大模型 ERNIE-ViL。借助飞桨深度学习平台分布式训练领先优势,百度 ERNIE-ViL 首次将场景图(Scene Graph)知识融入多模态预训练,曾在5项多模态任务上刷新世界最好效果。文心跨模态大模型可以对媒体片段与兴趣点进行相关度打分,寻找最契合故事的媒体片段。

在视频素材检索和内容质量提升上,源自百度积累多年的视觉技术,VidPress 以智感超清为基础进行画质提升,以多模态预训练大模型为主实现语义理解。秉持领先且实用的理念,百度视觉技术近年来已获得40余项世界冠军,相关专利位列中国申请量及质量第一,获得行业、政府及国家认可10余次,视觉公有云能力连续多次在 IDC/Forrester 等评选中位居市场第一。

来自 EmTech Digital 科技峰会的主办方麻省理工科技评论的高级 AI 编辑 Will Heaven 评价说“人工智能正变得越来越多模态,语言人工智能和视觉人工智能正在以一种非常酷的方式结合在一起。百度的视频生成系统 VidPress 充分融合了人工智能最具代表性的各个模型,是跨模态 AI 的代表应用。”

目前,AIGC(人工智能内容生产)正成为越来越重要的新型内容生产方式。VidPress 图文转视频作为其中的重要组成部分,未来会更大规模、更好地服务用户,这不仅会提升效率,也会打开更多内容创作的想象空间。

有关AI自动生成国风视频海外引关注,百度文心大模型助力AIGC智能创作的更多相关文章

  1. ruby - 使用 RubyZip 生成 ZIP 文件时设置压缩级别 - 2

    我有一个Ruby程序,它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重,我想提高压缩级别,因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗?是否有另一个允许指定压缩级别的Ruby库? 最佳答案 这是我通过查看ruby​​zip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d

  2. ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2

    很好奇,就使用ruby​​onrails自动化单元测试而言,你们正在做什么?您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您?git中的预提交Hook?只是手动调用?我完全理解测试,但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的,并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您? 最佳答案 不确定您到底想听什么,但是有几个级别的自动代码库控制:在处理某项功能时,您可以使用类似autotest的内容获得关于哪些有效,哪些无效的即时反馈。要确保您的提

  3. ruby - 在 jRuby 中使用 'fork' 生成进程的替代方案? - 2

    在MRIRuby中我可以这样做:deftransferinternal_server=self.init_serverpid=forkdointernal_server.runend#Maketheserverprocessrunindependently.Process.detach(pid)internal_client=self.init_client#Dootherstuffwithconnectingtointernal_server...internal_client.post('somedata')ensure#KillserverProcess.kill('KILL',

  4. ruby - 如何使用 Ruby aws/s3 Gem 生成安全 URL 以从 s3 下载文件 - 2

    我正在编写一个小脚本来定位aws存储桶中的特定文件,并创建一个临时验证的url以发送给同事。(理想情况下,这将创建类似于在控制台上右键单击存储桶中的文件并复制链接地址的结果)。我研究过回形针,它似乎不符合这个标准,但我可能只是不知道它的全部功能。我尝试了以下方法:defauthenticated_url(file_name,bucket)AWS::S3::S3Object.url_for(file_name,bucket,:secure=>true,:expires=>20*60)end产生这种类型的结果:...-1.amazonaws.com/file_path/file.zip.A

  5. ruby - RuntimeError(自动加载常量 Apps 多线程时检测到循环依赖 - 2

    我收到这个错误:RuntimeError(自动加载常量Apps时检测到循环依赖当我使用多线程时。下面是我的代码。为什么会这样?我尝试多线程的原因是因为我正在编写一个HTML抓取应用程序。对Nokogiri::HTML(open())的调用是一个同步阻塞调用,需要1秒才能返回,我有100,000多个页面要访问,所以我试图运行多个线程来解决这个问题。有更好的方法吗?classToolsController0)app.website=array.join(',')putsapp.websiteelseapp.website="NONE"endapp.saveapps=Apps.order("

  6. ruby-on-rails - Ruby on Rails - 为文本区域和图片生成列 - 2

    我是Rails的新手,所以请原谅简单的问题。我正在为一家公司创建一个网站。那家公司想在网站上展示它的客户。我想让客户自己管理这个。我正在为“客户”生成一个表格,我想要的三列是:公司名称、公司描述和Logo。对于名称,我使用的是name:string但不确定如何在脚本/生成脚手架终端命令中最好地创建描述列(因为我打算将其设置为文本区域)和图片。我怀疑描述(我想成为一个文本区域)应该仍然是描述:字符串,然后以实际形式进行调整。不确定如何处理图片字段。那么……说来话长:我在脚手架命令中输入什么来生成描述和图片列? 最佳答案 对于“文本”数

  7. ruby-on-rails - 如何生成传递一些自定义参数的 `link_to` URL? - 2

    我正在使用RubyonRails3.0.9,我想生成一个传递一些自定义参数的link_toURL。也就是说,有一个articles_path(www.my_web_site_name.com/articles)我想生成如下内容:link_to'Samplelinktitle',...#HereIshouldimplementthecode#=>'http://www.my_web_site_name.com/articles?param1=value1¶m2=value2&...我如何编写link_to语句“alàRubyonRailsWay”以实现该目的?如果我想通过传递一些

  8. ruby-on-rails - 如何在 Rails 3 中创建自定义脚手架生成器? - 2

    有这些railscast。http://railscasts.com/episodes/218-making-generators-in-rails-3有了这个,你就会知道如何创建样式表和脚手架生成器。http://railscasts.com/episodes/216-generators-in-rails-3通过这个,您可以了解如何添加一些文件来修改脚手架View。我想把两者结合起来。我想创建一个生成器,它也可以创建脚手架View。有点像RyanBates漂亮的生成器或web_app_themegem(https://github.com/pilu/web-app-theme)。我

  9. 报告回顾丨模型进化狂飙,DetectGPT能否识别最新模型生成结果? - 2

    导读语言模型给我们的生产生活带来了极大便利,但同时不少人也利用他们从事作弊工作。如何规避这些难辨真伪的文字所产生的负面影响也成为一大难题。在3月9日智源Live第33期活动「DetectGPT:判断文本是否为机器生成的工具」中,主讲人Eric为我们讲解了DetectGPT工作背后的思路——一种基于概率曲率检测的用于检测模型生成文本的工具,它可以帮助我们更好地分辨文章的来源和可信度,对保护信息真实、防止欺诈等方面具有重要意义。本次报告主要围绕其功能,实现和效果等展开。(文末点击“阅读原文”,查看活动回放。)Ericmitchell斯坦福大学计算机系四年级博士生,由ChelseaFinn和Chri

  10. ruby-on-rails - 从应用程序中自定义文件夹内的命名空间自动加载 - 2

    我们目前正在为ROR3.2开发自定义cms引擎。在这个过程中,我们希望成为我们的rails应用程序中的一等公民的几个类类型起源,这意味着它们应该驻留在应用程序的app文件夹下,它是插件。目前我们有以下类型:数据源数据类型查看我在app文件夹下创建了多个目录来保存这些:应用/数据源应用/数据类型应用/View更多类型将随之而来,我有点担心应用程序文件夹被这么多目录污染。因此,我想将它们移动到一个子目录/模块中,该子目录/模块包含cms定义的所有类型。所有类都应位于MyCms命名空间内,目录布局应如下所示:应用程序/my_cms/data_source应用程序/my_cms/data_ty

随机推荐