肢体_草庐IT

就在最近，Meta和UC伯克利联合提出了一种全新的虚拟人物形象生成的方法——直接根据音频生成全身人像，效果不仅逼真，还能模拟出原音频中包含的细节，比如手势、表情、情绪等等。图片论文地址：https://arxiv.org/abs/2401.01885话不多说，直接上图。图片可以看到，人像刷地一下就出来了，十分逼真。而且从上面的文字对话可以看到，就是在讲可以用音频生成虚拟人像这件事。讲者的手势动作真的像是在做讲解。音频到Avatar，一步！这个系统不光可以生成全身逼真的形象，人像还会根据二人互动的对话动态做出手势。给定语音音频后，音频会为一个人输出多种可能的手势动作，包括面部、身体和双手等部位。