Meta元宇宙出狠活！一个摄像头就能捏出个会动的虚拟化身

新智元 2023-03-28 原文

运动中的人类新视图合成是一个极具挑战性的计算机视觉问题。

以往的2D图片转三维模型都是在静态的情况下，但如果输入的是一段人类运动的视频，该如何生成自由视角的视频？

如果这个问题解决了，那就可以在AR/VR应用中的自动化实现虚拟化身建模。

现有的一些研究工作通常需要复杂的任务设置，包括多个输入视频、三维监督或预训练模型，这些苛刻的要求都限制了模型的泛化性，无法很好地推广到新用户的输入上。

为了解决这些局限性，Meta提出了一个新视图合成框架HVS-Net，可以从任意人类的未见视图中生成逼真的渲染。视图的捕获过程只需要一个具有稀疏RGB-D的单视图传感器，类似于一个低成本的深度相机。

论文链接：https://www.phongnhhn.info/HVS_Net/img/HVSNet.pdf

论文中提出了一个架构来学习基于球体（sphere-based）的神经渲染所获得的新视图中的稠密特征，并使用全局上下文绘画模型来创建完整的渲染图。

此外还包括一个增强网络（enhancer network）利用整体保真度，甚至在原始视图的遮挡区域，产生具有精细细节的清晰渲染。

实验结果显示，该方法在单一稀疏的RGB-D输入的情况下仍然可以生成高质量的合成和真实人类的新视图，并且能够泛化到未见过的新人物、新的姿势并忠实地重建面部表情。

该方法不仅优于先前的人类视图合成方法，而且对不同稀疏度的输入都具有鲁棒性。

一键生成虚拟化身

刚性物体（rigid objects）或动态场景的新视图合成是最近非常活跃的研究课题，在各种任务中都取得了极大的性能提升。

但对运动中的人类的新视图进行合成需要处理具有各种变形的动态场景的方法，特别是在那些具有精细细节的区域，如面部或衣服。

除此之外，常见的动态合成模型通常依赖于多视图输入，需要多个相机拍照，更多的相机参数，推理时间也很长（每帧可能需要几分钟）。

Meta提出的人类新视图合成网络HVS-Net仅使用一个消费级RGB-D传感器就能生成高保真的衣着人类的渲染图像。

网络有如下5个设计目标：

1、在测试时能够对新的人物进行泛化，无需重新训练；

2、能够处理训练集中不包含的新姿势；

3、无论是来自物体还是人物自身的遮挡，模型都应该能够处理；

4、能够捕捉面部表情；

5、给定一个单流、稀疏的RGB-D输入，能够实时生成高保真的图像。

HVS-Net将人的上半身的单一稀疏RGB-D图像和目标摄像机姿势作为输入，并从目标视角生成高分辨率的渲染。

与以前的方法相比，第一个关键区别是HVS-Net利用深度作为一个额外的输入流。

虽然输入的深度是稀疏的和有噪声的，但它仍然使模型能够利用输入视图中的信息，从而简化了新视图的合成。

为了说明输入的稀疏性，研究人员选择了一个基于球体的神经渲染器，与简单地从一个视图到另一个视图进行几何扭曲相比，该渲染器使用一个能够学习的半径来创建一个更密集的、扭曲的图像。

即使是被原始传感器正确观察到的像素也是稀疏的，从一个视角看两个相邻的像素，无论它们之间相差多少，只能得到它们各自深度的信号。

这也意味着，如果是从侧面来看，两个像素的深度差距会更大，但这些「间距」不是无限大的，所以可以通过基于球形的渲染器来解决这个问题。

考虑到从原始视点出发的每个像素的深度以及相机参数，这些点自然可以被投影到一个新的视图，这也使得使用基于深度的扭曲或可微分的点或球体的渲染器是开发视图合成的第一步的最佳选择。投影的过程能够自动纠错（除了传感器的噪声），且不受训练误差的影响。

视图合成模型生成目标视图的稠密特征，并使用全局上下文绘画网络渲染来自目标摄像机视图的结果RGB图像。

当与编码器-解码器架构结合并进行端对端训练时，该方法能够合成未见过的个体的新视图，并对主要输入视图中不可见的区域进行绘制。

虽然这种方法在最小的遮挡情况下效果很好，但在有严重遮挡的情况下，无论是人的手在身体前面移动或者拿着某个物体，都很难产生高质量的渲染。

因此，研究人员建议用户额外输入一个无遮挡图像，并通过在两个输入之间建立精确的稠密对应关系，将其扭曲成目标的新视图。

通过训练一个紧凑的Enhancer网络来完善最初估计的新视图，预测新视图和无遮挡图像之间的对应关系，使用一个新的HD-IUV模块对渲染图进行精炼处理，可以呈现出更清晰的结果。

然后利用生成的图像和ground-truth数据对之间的光度（photometric）损失来端到端地训练整个pipeline

此外，模型还使用立体渲染来鼓励近距离的视点之间的视图一致的结果。

为了更好地训练HVS-Net，还需要依靠高质量合成的人类扫描结果，从不同的角度进行捕捉动画和渲染。

这项工作的一个关键贡献是，模型可以很好地推广到由3DMD扫描系统捕获的真实数据，其面部或衣服的细节还原水平之高是前所未有的。

在实验部分，研究人员仅使用合成数据集RenderPeople对该方法进行训练，数据集中的人物穿着各种服装，在某些情况下拿着杯子、袋子或手机等物体，虽然涵盖了各式各样的外观和物体互动情况，但所有这些数据都是静态的，所以姿势空间的覆盖率是不足的。

研究人员通过引入额外的姿势变化来增强数据集，即对所有的网格进行非刚性配准（non-rigid registration）后使用一组预定义的动作将之制作成动画。

最后使用Blender为每帧25个视图合并一套高质量的标准RGB-D渲染图以及对应的IUV图。

除了合成测试集，研究人员还收集了一个真实世界的测试数据集，其中包括运动中的人物的3dMD 4D扫描图。3dMD 4D扫描仪是一个全身扫描仪，可以在60Hz的频率下捕获未配准的体积点云。

真实数据集仅用作测试，以了解该方法在处理合成数据和真实数据之间的领域差距上的能力。

3dMD的数据不包括物体的相互作用，但一般来说噪声比较多，而且有复杂的面部表情。

实验结果证实了HVS-Net中球体半径预测器的有效性，使得模型在输入点云密度方面更加稳健。

作为对比，尽管使用密集的深度图作为LookingGood的输入，但如果目标姿势与输入视点有很大偏差，该方法仍难以产生真实的结果，而SynSin不仅在遮挡区域表现不佳，而且在人的脖子周围也产生了伪影。

相比之下，HVS-Net方法不仅能够呈现可信的、真实的新视图，而且还能创造出忠实于输入视图的视图，重点是，HVS-Net在输入信息更少的情况下对两个主体的头发进行相当准确的预测。

化身摄像头 span style font-size 元宇宙新闻 $深度学习 3D

有关Meta元宇宙出狠活！一个摄像头就能捏出个会动的虚拟化身的更多相关文章

ruby-on-rails - 结合 meta_search 与 acts_as_taggable_on - 2
我在开发的Rails3网站的一些搜索功能上遇到了一个小问题。我有一个简单的Post模型，如下所示:classPost我正在使用acts_as_taggable_on来更轻松地向我的帖子添加标签。当我有一个标记为“rails”的帖子并执行以下操作时，一切正常:@posts=Post.tagged_with("rails")问题是，我还想搜索帖子的标题。当我有一篇标题为“Helloworld”并标记为“rails”的帖子时，我希望能够通过搜索“hello”或“rails”来找到这篇帖子。因此，我希望标题列的LIKE语句与acts_as_taggable_on提供的tagged_with方法
ruby - 使用 Vim Rails，您可以创建一个新的迁移文件并一次性打开它吗？ - 2
使用带有Rails插件的vim，您可以创建一个迁移文件，然后一次性打开该文件吗？textmate也可以这样吗？最佳答案你可以使用rails.vim然后做类似的事情::Rgeneratemigratonadd_foo_to_bar插件将打开迁移生成的文件，这正是您想要的。我不能代表textmate。关于ruby-使用VimRails，您可以创建一个新的迁移文件并一次性打开它吗？，我们在StackOverflow上找到一个类似的问题： https://sta
ruby-on-rails - Rails - 一个 View 中的多个模型 - 2
我需要从一个View访问多个模型。以前，我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它，但这似乎不是“ruby方式”，我将需要在不久的将来访问更多模型。这可能会变得很脏，是否有针对这种情况的任何技术？注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展，本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向，这似乎很麻烦。最终从任何
ruby-on-rails - 渲染另一个 Controller 的 View - 2
我想要做的是有2个不同的Controller，client和test_client。客户端Controller已经构建，我想创建一个test_clientController，我可以使用它来玩弄客户端的UI并根据需要进行调整。我主要是想绕过我在客户端中内置的验证及其对加载数据的管理Controller的依赖。所以我希望test_clientController加载示例数据集，然后呈现客户端Controller的索引View，以便我可以调整客户端UI。就是这样。我在test_clients索引方法中试过这个:classTestClientdefindexrender:template=>
ruby-on-rails - 如果 Object::try 被发送到一个 nil 对象，为什么它会起作用？ - 2
如果您尝试在Ruby中的nil对象上调用方法，则会出现NoMethodError异常并显示消息:"undefinedmethod‘...’fornil:NilClass"然而，有一个tryRails中的方法，如果它被发送到一个nil对象，它只返回nil:require'rubygems'require'active_support/all'nil.try(:nonexisting_method)#noNoMethodErrorexceptionanymore那么try如何在内部工作以防止该异常？最佳答案像Ruby中的所有其他对象
ruby - 为什么 SecureRandom.uuid 创建一个唯一的字符串？ - 2
关闭。这个问题需要detailsorclarity.它目前不接受答案。想改进这个问题吗？通过editingthispost添加细节并澄清问题.关闭8年前。Improvethisquestion为什么SecureRandom.uuid创建一个唯一的字符串？SecureRandom.uuid#=>"35cb4e30-54e1-49f9-b5ce-4134799eb2c0"SecureRandom.uuid方法创建的字符串从不重复？
ruby-on-rails - Rails - 从另一个模型中创建一个模型的实例 - 2
我有一个正在构建的应用程序，我需要一个模型来创建另一个模型的实例。我希望每辆车都有4个轮胎。汽车模型classCar轮胎模型classTire但是，在make_tires内部有一个错误，如果我为Tire尝试它，则没有用于创建或新建的activerecord方法。当我检查轮胎时，它没有这些方法。我该如何补救？错误是这样的:未定义的方法'create'forActiveRecord::AttributeMethods::Serialization::Tire::Module我测试了两个环境:测试和开发，它们都因相同的错误而失败。最佳答案
ruby - 用 Ruby 编写一个简单的网络服务器 - 2
我想在Ruby中创建一个用于开发目的的极其简单的Web服务器(不，不想使用现成的解决方案)。代码如下:#!/usr/bin/rubyrequire'socket'server=TCPServer.new('127.0.0.1',8080)whileconnection=server.acceptheaders=[]length=0whileline=connection.getsheaders想法是从命令行运行这个脚本，提供另一个脚本，它将在其标准输入上获取请求，并在其标准输出上返回完整的响应。到目前为止一切顺利，但事实证明这真的很脆弱，因为它在第二个请求上中断并出现错误:/usr/b
ruby - 一个 YAML 对象可以引用另一个吗？ - 2
我想让一个yaml对象引用另一个，如下所示:intro:"Hello,dearuser."registration:$introThanksforregistering!new_message:$introYouhaveanewmessage!上面的语法只是它如何工作的一个例子(这也是它在thiscpanmodule中的工作方式。)我正在使用标准的rubyyaml解析器。这可能吗？最佳答案一些yaml对象确实引用了其他对象:irb>require'yaml'#=>trueirb>str="hello"#=>"hello"ir
ruby - Rails 关联 - 同一个类的多个 has_one 关系 - 2
我的问题的一个例子是体育游戏。一场体育比赛有两支球队，一支主队和一支客队。我的事件记录模型如下:classTeam"Team"has_one:away_team,:class_name=>"Team"end我希望能够通过游戏访问一个团队，例如:Game.find(1).home_team但我收到一个单元化常量错误:Game::team。谁能告诉我我做错了什么？谢谢，最佳答案如果Gamehas_one:team那么Rails假设您的teams表有一个game_id列。不过，您想要的是games表有一个team_id列，在这种情况下

Meta元宇宙出狠活！一个摄像头就能捏出个会动的虚拟化身

一键生成虚拟化身

有关Meta元宇宙出狠活！一个摄像头就能捏出个会动的虚拟化身的更多相关文章

随机推荐