草庐IT

数字人解决方案——实时对话数字人源码与环境配置

前言1.从技术角度来看,现在的数字人就是一个缝合怪,把各种技术点都整合在一起,用来实现直播、对话等数字人。技术流程大概如下图: 其实最重要的一环应该属于LLM(大型语言模型),LLM相当于一个人的意识,如果没有LLM,这一套完全没有深度。2.数学人的呈现方式有现在基本上可以分为三种,2D、2.5D、3D这三种,2D是最常见的用一段语音去驱动一张照片,2.5D比2D多一些肢体动作,3D是UE建模。3.我这里部署的是2D实时对话的数字人,部署环境是win10、cuda11.7、cudnn8.5、GPU是3060(6G显存)。 4.精简版本和源码可以转到,对于新手来说,这个版本的源码可能更好的部署和

数字人解决方案——基于真人视频的三维重建数字人源码与训练方法

前言1.真人视频三维重建数字人源码是基于NeRF改进的RAD-NeRF,NeRF(NeuralRadianceFields)是最早在2020年ECCV会议上的BestPaper,其将隐式表达推上了一个新的高度,仅用2D的posedimages作为监督,即可表示复杂的三维场景。NeRF其输入稀疏的多角度带pose的图像训练得到一个神经辐射场模型,根据这个模型可以渲染出任意视角下的清晰的照片。也可以简要概括为用一个MLP神经网络去隐式地学习一个三维场景。NeRF最先是应用在新视点合成方向,由于其超强的隐式表达三维信息的能力后续在三维重建方向迅速发展起来。2.NeRF使用的场景有几个主流应用方向:新