Wav2vec2_草庐IT

Transformer通俗笔记：从Word2Vec、Seq2Seq逐步理解到GPT、BERT

前言我在写上一篇博客《22下半年》时，有读者在文章下面评论道：“july大神，请问BERT的通俗理解还做吗？”，我当时给他发了张俊林老师的BERT文章，所以没太在意。直到今天早上，刷到CSDN上一篇讲BERT的文章，号称一文读懂，我读下来之后，假定我是初学者，读不懂。关于BERT的笔记，其实一两年前就想写了，迟迟没动笔的原因是国内外已经有很多不错的资料，比如国外作者JayAlammar的一篇图解Transformer：TheIllustratedTransformer，再比如国内张俊林老师的这篇《说说NLP中的预训练技术发展史：从WordEmbedding到Bert模型》。本文基本上可以认为

Transformer通俗笔记：从Word2Vec、Seq2Seq逐步理解到GPT、BERT

前言我在写上一篇博客《22下半年》时，有读者在文章下面评论道：“july大神，请问BERT的通俗理解还做吗？”，我当时给他发了张俊林老师的BERT文章，所以没太在意。直到今天早上，刷到CSDN上一篇讲BERT的文章，号称一文读懂，我读下来之后，假定我是初学者，读不懂。关于BERT的笔记，其实一两年前就想写了，迟迟没动笔的原因是国内外已经有很多不错的资料，比如国外作者JayAlammar的一篇图解Transformer：TheIllustratedTransformer，再比如国内张俊林老师的这篇《说说NLP中的预训练技术发展史：从WordEmbedding到Bert模型》。本文基本上可以认为

通俗 Transformer quot xff0c amp

WAV文件的频谱图显示——总结篇

前言绘制频谱图需要纯音频数据，WAV就是纯音频，如果要用mp3等其他压缩格式的音频还需先进行解码（解码自行查找资料），这里只讲WAV文件绘制；频谱是什么？频谱的全称是频率谱密度。一般信号都是用时间和幅度的关系。通过傅立叶变换，可以得到频率和幅度的关系，这个就是信号的频谱。通过傅立叶变换，就可以把时域信号变成频域信号。那么具体如何绘制呢？下面就会详细讲解到。在讲解绘制频谱之前，我们要先了解WAV文件格式，进行分析；WAV文件解析WAV是一种以RIFF为基础的无压缩音频编码格式，该格式以Header、FormatChunk及DataChunk三部分构成。下图展示了WAV文件格式。 HeaderCh

mdash WAV amp nbsp quot

WAV文件的频谱图显示——总结篇

前言绘制频谱图需要纯音频数据，WAV就是纯音频，如果要用mp3等其他压缩格式的音频还需先进行解码（解码自行查找资料），这里只讲WAV文件绘制；频谱是什么？频谱的全称是频率谱密度。一般信号都是用时间和幅度的关系。通过傅立叶变换，可以得到频率和幅度的关系，这个就是信号的频谱。通过傅立叶变换，就可以把时域信号变成频域信号。那么具体如何绘制呢？下面就会详细讲解到。在讲解绘制频谱之前，我们要先了解WAV文件格式，进行分析；WAV文件解析WAV是一种以RIFF为基础的无压缩音频编码格式，该格式以Header、FormatChunk及DataChunk三部分构成。下图展示了WAV文件格式。 HeaderCh

mdash WAV amp nbsp quot

基于Wav2Lip的AI主播

现在市面上的各种AI主播产品，基本都是基于现有的人物造型，其中包括3D动漫，真人，二次元等等，然后通过对口型的方式进行的，但是这个会有一个问题，对于这种AI主播有个名词叫虚拟数字人，虽然虚拟数字人没有肖像权的问题，但是存在软件著作权的问题，现在都是购买会员免费试用，但是也容易出现很多问题，不如用自己的形象做一个AI数字人模型更加稳妥。先说下如果用自己形象进行数字人生成的话建议用自己很多口播视频进行训练，因为官方给的预训练模型使用英语训练出来的，所以你会发现生成好的数字人口型可能对不上的情况。如果想自己训练建议准备一定数量的口播短视频+对应的修正的字幕文档。如果硬件条件达不到的话，使用预训练模型

Wav2Lip 2Lip quot lt gt

基于Wav2Lip的AI主播

现在市面上的各种AI主播产品，基本都是基于现有的人物造型，其中包括3D动漫，真人，二次元等等，然后通过对口型的方式进行的，但是这个会有一个问题，对于这种AI主播有个名词叫虚拟数字人，虽然虚拟数字人没有肖像权的问题，但是存在软件著作权的问题，现在都是购买会员免费试用，但是也容易出现很多问题，不如用自己的形象做一个AI数字人模型更加稳妥。先说下如果用自己形象进行数字人生成的话建议用自己很多口播视频进行训练，因为官方给的预训练模型使用英语训练出来的，所以你会发现生成好的数字人口型可能对不上的情况。如果想自己训练建议准备一定数量的口播短视频+对应的修正的字幕文档。如果硬件条件达不到的话，使用预训练模型

Wav2Lip 2Lip quot lt gt

基于Wav2Lip+GFPGAN的高清版AI主播

继上一篇基于Wav2Lip的AI主播的内容之后很多小伙伴反应一个问题就是生成的AI人物并不是很清晰，尤其是放到编辑器里会出现明显的痕迹，因此这次带来的了Wav2Lip+GFPGAN高清版的内容，如果不太了解这个项目实做什么的可以来先看一下效果。该项目暂时没有中文介绍，我这个应该是首发。基于Wav2Lip自制高清版，用自己形象做数字人清楚多了虽然说是自制但是也基于git大佬的源代码按照自己的需求进行的修改，整体的原理就是基于视频的每一帧进行高清处理，然后进行合并拼接成视频，最后拼接音频形成完整的视频。文章目录准备工作环境配置创建虚拟环境激活虚拟环境pip安装匹配版本（追加安装）生产流程input

高清 Wav2Lip quot lt gt

基于Wav2Lip+GFPGAN的高清版AI主播

继上一篇基于Wav2Lip的AI主播的内容之后很多小伙伴反应一个问题就是生成的AI人物并不是很清晰，尤其是放到编辑器里会出现明显的痕迹，因此这次带来的了Wav2Lip+GFPGAN高清版的内容，如果不太了解这个项目实做什么的可以来先看一下效果。该项目暂时没有中文介绍，我这个应该是首发。基于Wav2Lip自制高清版，用自己形象做数字人清楚多了虽然说是自制但是也基于git大佬的源代码按照自己的需求进行的修改，整体的原理就是基于视频的每一帧进行高清处理，然后进行合并拼接成视频，最后拼接音频形成完整的视频。文章目录准备工作环境配置创建虚拟环境激活虚拟环境pip安装匹配版本（追加安装）生产流程input

高清 Wav2Lip quot lt gt

【音频】WAV 格式详解

文章目录WAV文件格式解析概述块解析RIFFchunkfmtchunkdatachunk示例分析代码解析WAV文件格式解析概述wav文件支持多种不同的比特率、采样率、多声道音频。WAV文件格式是Microsoft的RIFF规范的一个子集，用于存储多媒体文件。RIFF（resourceinterchangefileformat资源互换文件格式，以chunk(块)为单位组织文件）格式文件。在windows上，大部分多媒体文件都是RIFF文件。wav文件由若干个RIFFchunk构成，分别为:RIFFWAVEChunk，FormatChunk，FactChunk(可选)，DataChunk。另外，文

详解 WAV span class token 音视频 microsoft

【音频】WAV 格式详解

文章目录WAV文件格式解析概述块解析RIFFchunkfmtchunkdatachunk示例分析代码解析WAV文件格式解析概述wav文件支持多种不同的比特率、采样率、多声道音频。WAV文件格式是Microsoft的RIFF规范的一个子集，用于存储多媒体文件。RIFF（resourceinterchangefileformat资源互换文件格式，以chunk(块)为单位组织文件）格式文件。在windows上，大部分多媒体文件都是RIFF文件。wav文件由若干个RIFFchunk构成，分别为:RIFFWAVEChunk，FormatChunk，FactChunk(可选)，DataChunk。另外，文

详解 WAV span class token 音视频 microsoft