Meta再放大招！VR新模型登CVPR Oral：像人一样「读」懂语音

新智元 2023-03-28 原文

一提到AR、VR体验，声音体验都是最重要的一环。

无论是在元宇宙的party上狂欢，还是戴着增强现实 (AR) 眼镜在客厅看家庭电影，声效对用户的沉浸式体验都至关重要。

这不，Meta AI与Meta Reality Lab的音频专家联手，并与德克萨斯大学奥斯汀分校的研究人员合作，共同推出三个开源模型，用于对视频中人声和环境声的同步解析。

「我们正尝试建立这样的MR与VR场景，我们相信人工智能将为每个沉浸式环境提供相匹配的音质」他们说。

人体所处的物理环境不同，人耳所感知的声觉效果也不同。

例如，音乐会在大型场地和客厅的声音有很大的不同。这是因为物理空间的几何形状、该区域的材料和表面，以及声音来自何处的接近度，都影响了我们听到音频的方式。

因此，就需要AI模型来了解我们的环境信息，从而对声觉与视觉信息进行匹配。

Meta的这项研究主要包括三个模型，分别是视觉声觉匹配模型（Visual Acoustic Matching model）、基于视觉的去混响模型（Visually-Informed Dereverberation）、音视频分离模型（Visual Voice）。

同时，这次研究成果还在CVPR 2022论坛上发表5分钟演讲，这也就是TOP5含金量的论文才有这待遇。

首先，视觉声觉匹配模型可将视频中的音频转换为目标环境中的声觉效果，给定目标环境的图像和源音频的波形，模型就可以重新合成音频以匹配目标房间的声学。

然后就是我们基于视觉的音频去混响模型 (VIDA)，它可根据观察到的声音和视觉场景来学习消除混响。

而Visual Voice模型则可跨模型将视频中的音频与视频分离。

下面是这些模型的具体操作流程。

视觉和声音的完美盛宴

众所周知，音频与场景不一致的视频，会十分损伤我们的感知。

在过去，从不同的环境中获取音频和视频，并进行匹配，一直是一个挑战。

声学仿真模型可用于生成房间脉冲响应，以重新创建房间的声学效果，但这只有在几何形状（通常以 3D 网格的形式）和空间的材料属性已知的情况下才能完成。不过，在大多数情况下，这些信息是无从获取的。

当然，我们也可以仅根据在特定房间中捕获的音频来估计声学特性，但通过这种方式，只能获取十分有限的声学信息，而且通常不会产生很好的结果。

为了解决这些挑战，研究人员创建了一个自监督的视觉声学匹配模型，称为AViTAR。

它可以调整音频，以匹配目标图像的空间。研究人员使用了一个跨模态Transformer模型，其中输入由图像和音频组成，允许Transformer执行跨模态推理，并生成与视觉输入匹配的真实音频输出。

自监督训练目标从外部网络视频中学习声学匹配，尽管它们缺乏声学不匹配的音频和未标记的数据。

研究人员使用两个数据集构建了这个任务。第一个数据集是建立在与SoundSpaces合作的基础上，SoundSpaces是他们在2020年开放的AI视听平台。

建立在AI Habitat之上，SoundSpaces可以将来自「Replica」和「Matterport3D」数据集中的高保真、逼真的声源模拟，插入到各种真实世界中。

第二个数据集由29万段公开的英语视频组成，这些视频剪辑的内容是人们进行的3到10秒讲话。

对于这两个数据集，研究人员更专注室内环境下的语音。因为这些语音中的大部分可能与未来的很多场景用例相关，同时也因为人类对混响会如何影响语音有很强的先验知识。

研究人员将「麦克风和摄像机需要放在一起，并且远离声源」作为筛选视频的标准。因为根据声源的位置以及人或麦克风所在的位置，听到的声音可能会有所不同。

对于网络视频，研究人员必须克服的一个挑战是：他们只有与目标环境的声学相匹配的音频。

因此引入「失配」的概念，即首先消除混响。再将音频与另一个环境的脉冲响应混合在一起以随机化音效，并添加噪音以创建具有相同内容但不同音效的音频。

研究人员在两个数据集上验证了这个模型，并根据三个标准测量了生成音频的质量，包括它是否最接近真实音频、房间声学的正确性以及合成语音中保留的语音质量。

同时，他们也想看看人类是如何评价该模型的表现，评估的标准是「音响效果是否与参考图像匹配」。

结果表明，该模型成功地将人类语音转换为图像中描绘的各种真实世界场景，而且优于传统的纯音频声学匹配。

对于视觉声学匹配，研究者们感兴趣的话题之一是重温过去的记忆。想象一下，如果能够戴上一副AR眼镜，记忆中经历过的场景就会悄然地浮现在眼前。

比如拿起一件芭蕾舞裙，就能看到孩子芭蕾舞演出的全息图。音频消除了混响，听起来就像您在观众席的确切座位上所经历的那样。

真是妙不可言！

利用视觉信息，去除混响

下一个问题是，去混响。

尽管有些场景下，增加一些混响音效有助于让声音和视觉信息更加匹配，但在语音识别领域，更常见的做法是去混响。

混响会在环境中的表面和物体间反射，这种反射的后果反映在人的耳朵里，就是音质降低，而且会严重影响自动语音识别的精度。

通过去混响，可以尽量剥离环境影响，使语音更容易被识别和增强，比如，为有听力障碍的人生成更准确的字幕，就需要对音源进行去混响处理。

过去的去混响方法往往根据音频模式进行，这种方法并不能了解环境的完整声学特征。更多靠的是人类语音的先验知识，而没有考虑到周围的环境。

为了让这一过程与周围环境结合，需要融入更多的维度的信息，比如视觉信息。

结合了视觉信息的去混响模型称为「VIDA」，根据观察到的声音和视觉流来学习去混响，这些视觉信息包括房间的几何形状、材料和音源位置等，这些都会影响在音频流中体现的混响效果。

有了这个思路，我们想从一个特定的地方获取混响的音频，并抽离房间的声效。

研究人员开发了一个大规模的训练数据集，使用真实的语音进行渲染。

通过虚拟和真实的图像上的演示表明，在语音增强、语音识别和说话人识别等任务上，VIDA实现了SOTA性能，比传统的纯音频方法有了很大的提升。这对AR和VR应用中建立现实体验是非常重要的。

VisualVoice：通过看和听，理解语音

在复杂环境下，人类比AI更能理解语音的含义，因为我们不仅使用耳朵，还使用眼睛。

例如，我们看到某人的嘴在动，可能凭直觉就知道我们听到的声音一定是来自这个人。

Meta AI正在研究新的AI对话系统，就是要让AI也学会这种本事，识别在对话中看到的和听到的东西之间的细微关联。

VisualVoice的学习方式类似于人类学习掌握新技能的方式，通过从未标记的视频中学习视觉和听觉线索，实现视听语音分离。

对于机器来说，这创造了更好的感知，同时人类的感知力也会得到改善。

想象一下，能够与来自世界各地的同事一起参加元宇宙中的小组会议，随着他们在虚拟空间中的移动，加入更小的小组会议，期间，场景中的声音混响和音色会根据环境做出相应调整。

的确，现在的AI 模型在视频和图像理解方面做得很好。

但要让用户有「很哇塞」声如其境的体验，我们需要「多模式的 AI 模型」。

也就是可同时获取音频、视频和文本信息，并更具有丰富的环境理解的模型。

目前AViTAR 和 VIDA 目前仅支持单个图像,离推向市场还存在距离。

「未来我们希望尝试使用视频和其他动态来捕捉空间的声学特性。这将帮助我们更接近我们的目标，即创建了解现实世界环境以及人们如何体验它们的多模式 AI」。

参考资料：

https://ai.facebook.com/blog/ai-driven-acoustic-synthesis-for-augmented-and-virtual-reality-experiences/

https://siliconangle.com/2022/06/24/meta-building-better-ai-driven-audio-virtual-reality/

Meta CVPR 混响的研究人员元宇宙 $VR 新模型

有关Meta再放大招！VR新模型登CVPR Oral：像人一样「读」懂语音的更多相关文章

ruby-on-rails - Rails - 子类化模型的设计模式是什么？ - 2
我有一个模型:classItem项目有一个属性“商店”基于存储的值，我希望Item对象对特定方法具有不同的行为。Rails中是否有针对此的通用设计模式？如果方法中没有大的if-else语句，这是如何干净利落地完成的？最佳答案通常通过Single-TableInheritance. 关于ruby-on-rails-Rails-子类化模型的设计模式是什么？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.co
ruby-on-rails - 结合 meta_search 与 acts_as_taggable_on - 2
我在开发的Rails3网站的一些搜索功能上遇到了一个小问题。我有一个简单的Post模型，如下所示:classPost我正在使用acts_as_taggable_on来更轻松地向我的帖子添加标签。当我有一个标记为“rails”的帖子并执行以下操作时，一切正常:@posts=Post.tagged_with("rails")问题是，我还想搜索帖子的标题。当我有一篇标题为“Helloworld”并标记为“rails”的帖子时，我希望能够通过搜索“hello”或“rails”来找到这篇帖子。因此，我希望标题列的LIKE语句与acts_as_taggable_on提供的tagged_with方法
ruby-on-rails - Rails - 一个 View 中的多个模型 - 2
我需要从一个View访问多个模型。以前，我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它，但这似乎不是“ruby方式”，我将需要在不久的将来访问更多模型。这可能会变得很脏，是否有针对这种情况的任何技术？注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展，本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向，这似乎很麻烦。最终从任何
ruby-on-rails - 在混合/模块中覆盖模型的属性访问器 - 2
我有一个包含模块的模型。我想在模块中覆盖模型的访问器方法。例如:classBlah这显然行不通。有什么想法可以实现吗？最佳答案您的代码看起来是正确的。我们正在毫无困难地使用这个确切的模式。如果我没记错的话，Rails使用#method_missing作为属性setter，因此您的模块将优先，阻止ActiveRecord的setter。如果您正在使用ActiveSupport::Concern(参见thisblogpost)，那么您的实例方法需要进入一个特殊的模块:classBlah
ruby-on-rails - 如何验证非模型(甚至非对象)字段 - 2
我有一个表单，其中有很多字段取自数组(而不是模型或对象)。我如何验证这些字段的存在？solve_problem_pathdo|f|%>... 最佳答案创建一个简单的类来包装请求参数并使用ActiveModel::Validations。#definedsomewhere,atthesimplest:require'ostruct'classSolvetrue#youcouldevencheckthesolutionwithavalidatorvalidatedoerrors.add(:base,"WRONG!!!")unlesss
ruby-on-rails - form_for 中不在模型中的自定义字段 - 2
我想向我的Controller传递一个参数，它是一个简单的复选框，但我不知道如何在模型的form_for中引入它，这是我的观点:{:id=>'go_finance'}do|f|%>Transferirde:para:Entrada:"input",:placeholder=>"Quantofoiganho?"%>Saída:"output",:placeholder=>"Quantofoigasto?"%>Nota:我想做一个额外的复选框，但我该怎么做，模型中没有一个对象，而是一个要检查的对象，以便在Controller中创建一个ifelse，如果没有检查，请帮助我，非常感谢,谢谢
ruby-on-rails - 如何将验证与模型分开 - 2
我有一些非常大的模型，我必须将它们迁移到最新版本的Rails。这些模型有相当多的验证(User有大约50个验证)。是否可以将所有这些验证移动到另一个文件中？说app/models/validations/user_validations.rb。如果可以，有人可以提供示例吗？最佳答案您可以为此使用关注点:#app/models/validations/user_validations.rbrequire'active_support/concern'moduleUserValidationsextendActiveSupport:
ruby-on-rails - Rails 模型——非持久类成员或属性？ - 2
对于Rails模型，是否可以/建议让一个类的成员不持久保存到数据库中？我想将用户最后选择的类型存储在session变量中。由于我无法从我的模型中设置session变量，我想将值存储在一个“虚拟”类成员中，该成员只是将值传递回Controller。你能有这样的类(class)成员吗？最佳答案将非持久属性添加到Rails模型就像任何其他Ruby类一样:classUser扩展解释:在Ruby中，所有实例变量都是私有(private)的，不需要在赋值前定义。attr_accessor创建一个setter和getter方法:classUs
ruby-on-rails - Rails - 从另一个模型中创建一个模型的实例 - 2
我有一个正在构建的应用程序，我需要一个模型来创建另一个模型的实例。我希望每辆车都有4个轮胎。汽车模型classCar轮胎模型classTire但是，在make_tires内部有一个错误，如果我为Tire尝试它，则没有用于创建或新建的activerecord方法。当我检查轮胎时，它没有这些方法。我该如何补救？错误是这样的:未定义的方法'create'forActiveRecord::AttributeMethods::Serialization::Tire::Module我测试了两个环境:测试和开发，它们都因相同的错误而失败。最佳答案
ruby-on-rails - Ruby 中的内存模型 - 2
ruby如何管理内存。例如:如果我们在执行过程中采用C程序，则以下是内存模型。类似于这个ruby如何处理内存。C:__________________|||stack|||------------------||||------------------|||||Heap|||||__________________|||data|__________________|text|__________________Ruby:? 最佳答案 Ruby中没有“内存”这样的东西。Class#allocate分配一个对象并返回该对象。这就是程序