草庐IT

四种 AI 技术方案,教你拥有自己的 Avatar 形象

阿里云视频云 2023-03-28 原文

大火的 Avatar到底是什么 ?

随着元宇宙概念的大火,Avatar 这个词也开始越来越多出现在人们的视野。2009 年,一部由詹姆斯・卡梅隆执导 3D 科幻大片《阿凡达》让很多人认识了 Avatar 这个英语单词。不过,很多人并不知道这个单词并非导演杜撰的,而是来自梵文,是印度教中的一个重要术语。根据剑桥英语词典解释,Avatar 目前主要包含三种含义。

avatar 在剑桥词典的翻译结果 © Cambridge University Press

最初,Avatar 起源于梵文 avatarana ,由 ava ( off , down )+ tarati ( cross over )构成,字面意思是 “下凡”,指的是神灵降临人间的化身,通常特指主神毗湿奴 ( VISHNU ) 下凡化作人形或者兽形的状态。后于1784年进入英语词语中。

1985 年切普・莫宁斯塔和约瑟夫・罗梅罗在为卢卡斯影视公司Lucasfilm Games ( LucasArts ) 设计网络角色扮演游戏Habitat时使用了 Avatar 这个词来指代用户网络形象。而后在1992 年,科幻小说家 Neal Stephenson 撰写的《Snow Crash》一书中描述了一个平行于现实世界的元宇宙。所有的现实世界中的人在元宇宙中都有一个网络分身 Avatar,这一次也是该词首次出现在大众媒体。

互联网时代,Avatar 一词开始被程序员们广泛使用在软件系统中,用于代表用户个人或其性格的一个图像,即我们常说的 “头像” 或 “个人秀”。这个头像可以是网络游戏或者虚拟世界里三维立体的图像,也可以是网络论坛或社区里常用的二维平面图像。它是可以代表用户本人的一个标志物。

从QQ秀到Avatar

如今支持让用户创建属于自己的头像已经成为了各种软件应用的标配,用户使用的头像也随着技术发展从普通 2D形象发展到了3D形象。里程碑事件当属2017 年,苹果在 iPhone X 发布了新功能 ——Animoji,使用面部识别传感器来检测用户面部表情变化,同时用麦克风记录用户的声音,并最终生成可爱的 3D 动画表情符号,用户可以通过 iMessage 与朋友分享表情符号。但是第一代不支持用户自定义形象,仅支持系统内置的动物卡通头像。随后更新的 Animoji 二代开始支持用户自由化捏脸,生成风格化的人脸头像。当前不少场景中可以看到自动化捏脸功能,仅通过拍摄一张或几张照片,自动生成符合用户人脸特点的CG模型,但背后依赖于复杂的CG建模及渲染技术支持。

Avatar也可以跳过昂贵的CG建模及渲染流程,通过机器学习算法将拍摄人脸进行“风格化”。即自动化将目标训练风格迁移、与拍摄者本来的面目特征做融合,创建符合用户脸部特征的风格化人脸 Avatar。

人脸风格化 Avatar 的四种技术实现路线

什么是人脸风格化?

所谓人脸风格化,就是将真实的人脸头像转换为特定的风格头像,例如卡通风格、动漫风格、油画风格,如下图所示:

基本上说,实现人脸风格化可通过纹理贴图、风格迁移、循环对抗网络和隐变量映射等几种技术路线实现。

纹理贴图

纹理贴图一般是给定一张样本图片,通过算法自动将该图片的纹理逐像素或逐块贴到目标人脸上,形成一种合理自然、可随动的人脸面具 [1]。

[1] 中样例图片

风格迁移

风格迁移是给定一张或一组风格照片,基于学习方法从风格图片中提取出风格编码、从目标人脸图片中提出内容编码,通过两组编码自动化生成对应的风格化图片 [2, 3]。只更改了人脸图片的表面纹理,而无法合理地保留或调整人脸的结构属性、形成有意义的结构性风格改变。 [3] 中样例图片

循环对抗网络

采用循环对抗网络的方法,通过利用循环对抗网络及其重建约束来训练得到可实现没有成对训练样本的风格化效果。往往配合使用风格迁移,即分别提取风格编码和内容编码。针对人脸的风格化也会显示建模并根据目标风格属性对人脸结构信息做形变(如基于人脸关键点)。但由于循环对抗网络缺少对中间结果约束(如A->B->A中的B)导致最终生成效果不可控、不稳定(即无法保证A->B的合理性)[4]。 [4] 中样例图片

隐变量映射

隐变量映射一般将一个预先训练好的真实人脸生成模型、利用一组风格图片往目标风格微调,从而获得一个对应的人脸风格化生成模型 [5, 6]。采用一个编码网络将输入人脸图片映射成或基于多步的优化得到该图片对应的隐变量,并将该变量作为人脸风格化生成模型的输入,从而得到该人脸图片对应的风格化图片。其中基于优化的隐变量映射方法往往得到比较好的效果,但在实际运行时需要大量计算。映射后的隐变量虽然包含了人脸的全局信息,但容易丢失原输入人脸的细节特征,容易造成生成的效果无法反映出个人辨识特征和细节表情。

[5] 中样例图片(来自https://toonify.photos/)

[6] 中样例图片

阿里云视频云自研卡通智绘 Avatar

2020年,由阿里云视频云自研的卡通智绘Avatar横空出世,获得了业界瞩目。在2021年10月的云栖大会上,阿里云视频云的卡通智绘项目亮相阿里云开发者展台,近2000名参会者争相体验,成为了大会爆款。

阿里云卡通智绘采用了隐变量映射的技术方案,对输入人脸图片,发掘其显著特征(如眼睛大小,鼻型等),可以自动化生成具有个人特色的虚拟形象(即风格化后的效果)。

首先利用自有的海量有版权的高清人脸数据集通过无监督的方式训练一个可以生成高清人脸图片的模型,即真实人脸模拟器,在隐变量的控制下生成大量不同人脸特征的高清人脸图片。利用收集的少量目标风格图片(目标风格图片无需跟真实人脸一一对应)微调该模型、得到风格化模拟器。真实人脸模拟器和风格化模拟器共享隐变量,即一个隐变量可以映射得到一对“伪”人脸图片及其对应的风格化图片。

通过采样大量的隐变量,我们可以得到大量涵盖不同人脸属性(性别、年龄、表情、发型、是否戴眼镜等)的数据对,从而用来训练图像翻译网络。基于人脸先天的结构性(如眼睛、鼻子等)以及真实人脸和风格化后虚拟形象的结构性差异(如卡通形象的眼睛往往又大又圆),在网络中加入局部区域相关性计算模块以及人脸重建的约束,从而训练得到的网络生成的虚拟形象既生动可爱、又具有个人特色。

模型设计

基于人脸先天的结构性(如眼睛、鼻子等)以及真实人脸和风格化后虚拟形象的结构性差异(如卡通形象的眼睛往往又大又圆),在网络中加入局部区域相关性计算模块(即希望真人的眼睛和虚拟形象的眼睛的特征有一定对应关系)以及人脸重建的约束,从而使生成的虚拟形象既生动可爱、又具有个人特色。

效果展示:

Avatar 的未来

得益于 AI 技术的高速发展,我们现在已经拥有了制作虚拟人技术,但相信这一切只是开端。在可预见的未来,Avatar 将作为元宇宙数字居民的数字化身,越来越频繁的出现在虚拟世界中。而 Avatar 也将成为虚拟世界中的极其重要的一项数字资产。

最后引用扎克伯格对数字人的一段描述,“虚拟世界的特征是存在感,即你可以真切感受到另一个人或在另外一个地方。创造、虚拟人和数字对象将成为我们表达自我的核心,这将带来全新的体验和经济机会。”

“The defining quality of the metaverse is presence, which is this feeling that you’re really there with another person or in another place,” Mr. Zuckerberg told analysts in July. “Creation, avatars, and digital objects are going to be central to how we express ourselves, and this is going to lead to entirely new experiences and economic opportunities.”

参考文献: [1] Aneta Texler, Ondřej Texler, Michal Kučera, Menglei Chai, and Daniel Sýkora. FaceBlit: Instant Real-time Example-based Style Transfer to Facial Videos, In Proceedings of the ACM in Computer Graphics and Interactive Techniques, 4(1), 2021. [2] Leon A. Gatys, Alexander S. Ecker, and Matthias Bethge. A Neural Algorithm of Artistic Style. Journal of Vision September 2016, Vol.16, 326. [3] Vincent Dumoulin, Jonathon Shlens, and Manjunath Kudlur. A Learned Representation for Artistic Style. In International Conference on Learning Representations 2017. [4] Kaidi Cao, Jing Liao, and Lu Yuan. CariGANs: Unpaired Photo-to-Caricature Translation. In ACM Transactions on Graphics (Siggraph Asia 2018). [5] Justin N. M. Pinkney and Doron Adler. Resolution Dependent GAN Interpolation for Controllable Image Synthesis Between Domains. In NeurIPS 2020 Workshop. [6] Guoxian Song, Linjie Luo, Jing Liu, Wan-Chun Ma, Chunpong Lai, Chuanxia Zheng, and Tat-Jen Cham. AgileGAN: Stylizing Portraits by Inversion-Consistent Transfer Learning. In ACM Transactions on Graphics (Siggraph 2021).

有关四种 AI 技术方案,教你拥有自己的 Avatar 形象的更多相关文章

  1. ruby - 在 jRuby 中使用 'fork' 生成进程的替代方案? - 2

    在MRIRuby中我可以这样做:deftransferinternal_server=self.init_serverpid=forkdointernal_server.runend#Maketheserverprocessrunindependently.Process.detach(pid)internal_client=self.init_client#Dootherstuffwithconnectingtointernal_server...internal_client.post('somedata')ensure#KillserverProcess.kill('KILL',

  2. Unity 热更新技术 | (三) Lua语言基本介绍及下载安装 - 2

    ?博客主页:https://xiaoy.blog.csdn.net?本文由呆呆敲代码的小Y原创,首发于CSDN??学习专栏推荐:Unity系统学习专栏?游戏制作专栏推荐:游戏制作?Unity实战100例专栏推荐:Unity实战100例教程?欢迎点赞?收藏⭐留言?如有错误敬请指正!?未来很长,值得我们全力奔赴更美好的生活✨------------------❤️分割线❤️-------------------------

  3. MIMO-OFDM无线通信技术及MATLAB实现(1)无线信道:传播和衰落 - 2

     MIMO技术的优缺点优点通过下面三个增益来总体概括:阵列增益。阵列增益是指由于接收机通过对接收信号的相干合并而活得的平均SNR的提高。在发射机不知道信道信息的情况下,MIMO系统可以获得的阵列增益与接收天线数成正比复用增益。在采用空间复用方案的MIMO系统中,可以获得复用增益,即信道容量成倍增加。信道容量的增加与min(Nt,Nr)成正比分集增益。在采用空间分集方案的MIMO系统中,可以获得分集增益,即可靠性性能的改善。分集增益用独立衰落支路数来描述,即分集指数。在使用了空时编码的MIMO系统中,由于接收天线或发射天线之间的间距较远,可认为它们各自的大尺度衰落是相互独立的,因此分布式MIMO

  4. Ruby 守护进程和 JRuby - 备选方案 - 2

    我有一个应用程序正在从Ruby迁移到JRuby(由于需要通过Java提供更好的Web服务安全支持)。我使用的gem之一是daemons创建后台作业。问题在于它使用fork+exec来创建后台进程,但这对JRuby来说是禁忌。那么-是否有用于创建后台作业的替代gem/wrapper?我目前的想法是只从shell脚本调用rake并让rake任务永远运行......提前致谢,克里斯。更新我们目前正在使用几个与Java线程相关的包装器,即https://github.com/jmettraux/rufus-scheduler和https://github.com/philostler/acts

  5. ruby-on-rails - 如何测试自己对 Ruby/ROR 的了解? - 2

    是否有self验证的问题列表。看着那个,我可以确定我知道。我应该复习一下。在学习的过程中,我列了一个这样的list,但它只包含我在某处听说过的项目。我需要一段时间才能找到新的东西。 最佳答案 以下是针对ruby​​和Rails的一些测试列表。证书名称:RubyonRails谁提供:oDeskIncorporation认证费用:免费网站:https://www.odesk.com/tests/985?pos=0证书名称:RubyonRails提供者:Techgig.com(TimesBusinessSolutionsLimited(T

  6. ruby-on-rails - 用于门户的 Ruby 技术 - 2

    我刚刚看到whitehouse.gov正在使用drupal作为CMS和门户技术。drupal的优点之一似乎是很容易添加插件,而且编程最少,即重新发明轮子最少。这实际上正是Ruby-on-Rails的DRY理念。所以:drupal的缺点是什么?Rails或其他基于Ruby的技术有哪些不符合whitehouse.org(或其他CMS门户)门户技术的资格? 最佳答案 Whatarethedrawbacksofdrupal?对于Ruby和Rails,这确实是一个相当主观的问题。Drupal是一个可靠的内容管理选项,非常适合面向社区的站点。它

  7. ruby - Formtastic,拥有 :as input type - 2

    如何将自己的字段类型添加到formtastic中?例如,我需要一个自定义的日期时间输入,我想要这样的东西::my_date%>这显然是行不通的,因为formtastic不知道:my_date(只有:boolean、:string、:datetime等等...)但是我怎样才能添加额外的输入类型呢? 最佳答案 您需要添加自定义输入法:classMyCustomFormtasticFormBuilder这非常适合新的HTML5输入类型。你可以这样使用它:MyCustomFormtasticFormBuilderdo|f|%>:my_dat

  8. iNFTnews | 周杰伦18年前未发布的作品Demo,藏在了区块链技术里 - 2

    当音乐碰上区块链技术,会擦出怎样的火花?或许周杰伦已经给了我们答案。8月29日下午,B站独家首发周杰伦限定珍藏Demo独家访谈VCR,周杰伦在VCR里分享了《晴天》《青花瓷》《搁浅》《爱在西元前》四首经典歌曲Demo背后的创作故事,并首次公布18年前未发布的神秘作品《纽约地铁》的Demo。在VCR中,方文山和杰威尔音乐提及到“多亏了区块链技术,现在我们可以将这些Demos,变成独一无二具有收藏价值的艺术品,这些Demos可以在薄盒(国内数藏平台)上听到。”如何将音乐与区块链技术相结合,薄盒方面称:“薄盒作为区块链技术服务方,打破传统对于区块链技术只能作为数字收藏的理解。聚焦于区块链技术赋能,在

  9. ruby-on-rails - 能够处理 rar/tar/zip/7z 的 Ruby/rubyzip 替代方案? - 2

    关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于StackOverflow来说是偏离主题的,因为它们往往会吸引自以为是的答案和垃圾邮件。相反,describetheproblem以及迄今为止为解决该问题所做的工作。关闭9年前。Improvethisquestion我想知道是否有人知道Ruby的ruby​​zip替代品,它可以处理各种格式,特别是zip/rar/7z?我知道libarchive,但它对我的目的来说并不完整(它是一个很好的gem)。(澄清一下,libarchive-对我不起作用-因为

  10. ruby-on-rails - 对于 Ruby 应用程序,是否有比 Sanitize 更好的替代方案? - 2

    我爱Sanitize.这是一个了不起的实用程序。我遇到的唯一问题是,它需要永远准备一个开发环境,因为它使用Nokogiri,这对编译时间来说是一种痛苦。是否有任何程序可以在不使用Nokogiri的情况下执行Sanitize的操作(如果没有别的,只是温和地执行它的操作)?这将以指数方式提供帮助! 最佳答案 Rails有自己的SanitizeHelper。根据http://api.rubyonrails.org/classes/ActionView/Helpers/SanitizeHelper.html,它将Thissanitizehe

随机推荐