AD-NeRF 由音频和人脸图像合成人脸视频并表现出自然的说话风格

西西弗Sisyphus 2023-05-18 原文

AD-NeRF 由音频和人脸图像合成人脸视频并表现出自然的说话风格

flyfish

合成高保真音频驱动的面部视频序列在数字人类、聊天机器人和虚拟视频会议等许多应用中是一个重要而具有挑战性的问题。
将语音头部的生成过程视为从音频到视觉人脸的跨模态映射，期望合成的人脸图像表现出自然的说话风格，同时同步与原始视频相同的照片真实感的流媒体结果。

环境：

Ubuntu 18.04
NVIDIA Driver Version: 440.33.01
CUDA Version: 10.2 cuda-repo-ubuntu1804-10-2-local-10.2.89-440.33.01_1.0-1_amd64
libcudnn8_8.0.3.33-1+cuda10.2_amd64
Python: 3.7
PyTorch: torch-1.8.2+cu102-cp37-cp37m-linux_x86_64
PyTorch3D: pytorch3d-0.6.0-py37_cu102_pyt181

代码在以上环境能够正确处理数据和训练模型

本文的运行方案与官网有稍微不同

论文：https://arxiv.org/abs/2103.11078
代码：https://github.com/YudongGuo/AD-NeRF
论文题目《AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis》

本文AD-NeRF运行环境，模型和代码下载地址

链接：https://pan.baidu.com/s/1tvZOwFM8XAnJONPXNvkGYg 
提取码：1l53

本文执行方案如下
先下载已经提供的AD-NeRF运行环境包括cuda，cudnn，pytorch，pytorch3d，全部是匹配的版本，本地化安装不容易出现问题
内容包括

cuda-repo-ubuntu1804-10-2-local-10.2.89-440.33.01_1.0-1_amd64.deb
libcudnn8_8.0.3.33-1+cuda10.2_amd64.deb
libcudnn8-dev_8.0.3.33-1+cuda10.2_amd64.deb
pytorch3d-0.6.0-py37_cu102_pyt181.tar.bz2
torch-1.8.2+cu102-cp37-cp37m-linux_x86_64.whl

执行步骤

1 cuda和cudnn的安装

在 NVIDIA驱动是440版本的环境下安装上面已经下载的cuda和cudnn，其他驱动版本未测试
如果下载其他版本看这里

2 创建 anaconda虚拟环境，名字叫adnerf

conda env create -f environment.yml
conda activate adnerf

3 本地安装GPU版的PyTorch

pip install torch-1.8.2+cu102-cp37-cp37m-linux_x86_64.whl

4 本地安装PyTorch3D

conda install --use-local pytorch3d-0.6.0-py37_cu102_pyt181.tar.bz2

5 第三方模型位置

将"01_MorphableModel.mat" 放到 data_util/face_tracking/3DMM/
运行

cd data_util/face_tracking
python convert_BFM.py

文本已提供该模型

6 制作数据集

bash process_data.sh Obama

该数据集是通过 dataset/vids/Obama.mp4生成的数据集,网盘已包含生成的数据集

7 剩下的事情就可以按照官网提供的命令进行训练了

训练分两部
（1）训练Head-NeRF
如果遇到与我相同的显存不足的问题，可以跳到8

python NeRFs/HeadNeRF/run_nerf.py --config dataset/Obama/HeadNeRF_config.txt

（2）训练TorsoNeRF

从AD-NeRF/dataset/Obama/logs/Obama_head找到最新的模型，例如030000_head.tar重命名为head.tar
将head.tar放到AD-NeRF/dataset/Obama/logs/Obama_com中
执行名

python NeRFs/TorsoNeRF/run_nerf.py --config dataset/Obama/TorsoNeRF_config.txt

训练过程

8 显存不够的解决

（1）训练源码在12G显存下不够，所以改了下样本大小由64改到了32可以运行

AD-NeRF/NeRFs/HeadNeRF/run_nerf.py
AD-NeRF/NeRFs/TorsoNeRF/run_nerf.py
parser.add_argument("--N_samples", type=int, default=32,
...

（2）制作数据集时显存不够
AD-NeRF/data_util/face_tracking/face_tracker.py
搜索代码 batch_size
原来是50，这里改成10

batch_size = 10 #50

现出 AD-NeRF span class token 音视频 pytorch 深度学习

有关AD-NeRF 由音频和人脸图像合成人脸视频并表现出自然的说话风格的更多相关文章

ruby-on-rails - 添加回形针新样式不影响旧上传的图像 - 2
我有带有Logo图像的公司模型has_attached_file:logo我用他们的Logo创建了许多公司。现在，我需要添加新样式has_attached_file:logo,:styles=>{:small=>"30x15>",:medium=>"155x85>"}我是否应该重新上传所有旧数据以重新生成新样式？我不这么认为……或者有什么rake任务可以重新生成样式吗？最佳答案参见Thumbnail-Generation.如果rake任务不适合你，你应该能够在控制台中使用一个片段来调用重新处理!关于相关公司
ruby-on-rails - 在 Ruby (on Rails) 中使用 imgur API 获取图像 - 2
我正在尝试使用Ruby2.0.0和Rails4.0.0提供的API从imgur中提取图像。我已尝试按照Ruby2.0.0文档中列出的各种方式构建http请求，但均无济于事。代码如下:require'net/http'require'net/https'defimgurheaders={"Authorization"=>"Client-ID"+my_client_id}path="/3/gallery/image/#{img_id}.json"uri=URI("https://api.imgur.com"+path)request,data=Net::HTTP::Get.new(path
python ffmpeg 使用 pyav 转换一组图像到视频 - 2
2022/8/4更新支持加入水印水印必须包含透明图像，并且水印图像大小要等于原图像的大小pythonconvert_image_to_video.py-f30-mwatermark.pngim_dirout.mkv2022/6/21更新让命令行参数更加易用新的命令行使用方法pythonconvert_image_to_video.py-f30im_dirout.mkvFFMPEG命令行转换一组JPG图像到视频时，是将这组图像视为MJPG流。我需要转换一组PNG图像到视频，FFMPEG就不认了。pyav内置了ffmpeg库，不需要系统带有ffmpeg工具因此我使用ffmpeg的python包装p
ruby - 是否有将图像文件转换为 ASCII 艺术的命令行程序或库？ - 2
有这样的事吗？我想在Ruby程序中使用它。最佳答案试试这个http://csl.sublevel3.org/jp2a/此外，Imagemagick可能还有一些东西关于ruby-是否有将图像文件转换为ASCII艺术的命令行程序或库？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/6510445/
ruby-on-rails - 使用 Dragonfly 从 URL 分配图像 - 2
我正在使用Dragonfly在Rails3.1应用程序上处理图像。我正在努力通过url将图像分配给模型。我有一个很好的表格:{:multipart=>true}do|f|%>RemovePicture?Dragonfly的文档指出:Dragonfly提供了一个直接从url分配的访问器:@album.cover_image_url='http://some.url/file.jpg'但是当我在控制台中尝试时:=>#ruby-1.9.2-p290>picture.image_url="http://i.imgur.com/QQiMz.jpg"=>"http://i.imgur.com/QQ
Ruby-vips 图像处理库。有什么好的使用示例吗？ - 2
我对图像处理完全陌生。我对JPEG内部是什么以及它是如何工作一无所知。我想知道，是否可以在某处找到执行以下简单操作的ruby代码:打开jpeg文件。遍历每个像素并将其颜色设置为fx绿色。将结果写入另一个文件。我对如何使用ruby-vips库实现这一点特别感兴趣https://github.com/ender672/ruby-vips我的目标-学习如何使用ruby-vips执行基本的图像处理操作(Gamma校正、亮度、色调……)任何指向比“helloworld”更复杂的工作示例的链接——比如ruby-vips的github页面上的链接，我们将不胜感激!如果有ruby-
ruby-on-rails - 如何播种图像的路径？ - 2
Organization和Image具有一对一的关系。Image有一个名为filename的列，它存储文件的路径。我在Assets管道中包含这样一个文件:app/assets/other/image.jpg。播种时如何包含此文件的路径？我已经在我的种子文件中尝试过:@organization=...@organization.image.create!(filename:File.open('app/assets/other/image.jpg'))#Ialsotried:#@organization.image.create!(filename:'app/assets/other/i
ruby-on-rails - 安全地显示使用回形针 gem 上传的图像 - 2
默认情况下:回形针gem将所有附件存储在公共(public)目录中。出于安全原因，我不想将附件存储在公共(public)目录中，所以我将它们保存在应用程序根目录的uploads目录中:classPost我没有指定url选项，因为我不希望每个图像附件都有一个url。如果指定了url:那么拥有该url的任何人都可以访问该图像。这是不安全的。在user#show页面中:我想实际显示图像。如果我使用所有回形针默认设置，那么我可以这样做，因为图像将在公共(public)目录中并且图像将具有一个url:Someimage:看来，如果我将图像附件保存在公共(public)目录之外并且不指定url(同
ruby - Paperclip:以编程方式分配图像并设置其名称 - 2
使用Paperclip，我想从这样的URL抓取图像:require'open-uri'user.photo=open(url)问题是我最后得到一个像“open-uri20110915-4852-1o7k5uw”这样的文件名。有什么方法可以更改user.photo上的文件名？作为一个额外的变化，Paperclip将我的文件存储在S3上，所以如果我可以在初始分配中设置我想要的文件名就更好了，这样图像就会上传到正确的S3key。像这样:user.photo=open(url),:filename=>URI.parse(url).path 最佳答案
ruby-on-rails - 如何在回形针 ruby on rails 中设置默认图像 - 2
最近我安装了Paperclipgem，我正在努力让默认图像在我的系统上工作，我将图像文件放在assets/images/pic.png中。这是我的模型User中的代码:has_attached_file:pic,:styles=>{:medium=>"300x300>",:thumb=>"100x100>"},:default_url=>'missing_:avatar.png'#:default_url=>'assets/images/avatar.png'has_attached_file:attach这是我的AddPicPaperClip迁移中的代码:defself.upadd_

AD-NeRF 由音频和人脸图像合成人脸视频并表现出自然的说话风格

AD-NeRF 由音频和人脸图像合成人脸视频并表现出自然的说话风格

1 cuda和cudnn的安装

2 创建 anaconda虚拟环境，名字叫adnerf

3 本地安装GPU版的PyTorch

4 本地安装PyTorch3D

5 第三方模型位置

6 制作数据集

7 剩下的事情就可以按照官网提供的命令进行训练了

8 显存不够的解决

有关AD-NeRF 由音频和人脸图像合成人脸视频并表现出自然的说话风格的更多相关文章

随机推荐