草庐IT

音频秒生全身虚拟人像,AI完美驱动面部肢体动作!UC伯克利Meta提出Audio2Photoreal

就在最近,Meta和UC伯克利联合提出了一种全新的虚拟人物形象生成的方法——直接根据音频生成全身人像,效果不仅逼真,还能模拟出原音频中包含的细节,比如手势、表情、情绪等等。图片论文地址:https://arxiv.org/abs/2401.01885话不多说,直接上图。图片可以看到,人像刷地一下就出来了,十分逼真。而且从上面的文字对话可以看到,就是在讲可以用音频生成虚拟人像这件事。讲者的手势动作真的像是在做讲解。音频到Avatar,一步!这个系统不光可以生成全身逼真的形象,人像还会根据二人互动的对话动态做出手势。给定语音音频后,音频会为一个人输出多种可能的手势动作,包括面部、身体和双手等部位。