草庐IT

基于So-VITS-SVC的声音克隆

So-VITS-SVC声音克隆项目是一项开源离线项目,SVCDevelopTeam的所有成员以及本项目的开发者和维护者对本项目没有控制权。项目贡献者从未向任何组织和个人提供任何形式的帮助,包括但不限于数据集提取、数据集处理、计算支持、训练支持、推理等。此外,项目贡献者也无法得知用户使用该项目的目的是什么。因此,所有基于本项目训练的AI模型和合成音频与本项目贡献者无关,由此产生的任何问题均由用户自行承担。警告:请务必解决数据集授权问题,禁止使用未经授权的数据集进行训练!任何因使用未经授权的数据集进行训练造成的问题,需自行承担全部责任和后果!与本文、本仓库、仓库维护者、SvcDevelopTeam

论文阅读:VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech with Adversarial

论文标题是“VITS2:ImprovingQualityandEfficiencyofSingle-StageText-to-SpeechwithAdversarialLearningandArchitectureDesign”,写不下了,是2023.7.31原vits团队刚刚挂在arxiv上的文章,主要基于四个方面对vits做了改动,此篇文章我们就不讲vits,主要分析vits2的部分。摘要单阶段文本到语音模型最近被积极研究,其结果优于两阶段管道系统。以往的单阶段模型虽然取得了较大的进展,但在间歇性非自然性、计算效率、对音素转换依赖性强等方面仍有改进的空间。本文提出VITS2,一种单阶段的文

基于VITS 快速微调的本地环境配置、本地训练以及本地推理的教程

该教程能教会读者如何使用本地服务器使用VITS微调训练自己的想要的角色的声音并且本地推理,注意只能使用linux版本进行训练,但是推理可以在windows上完成。操作系统:Linux(Ubuntu20.04)Python版本:3.9使用Conda虚拟环境STEP0 使用conda配置虚拟环境(个人习惯,也可以直接在本地服务器上嗯配)condacreate-nvitspython=3.9activatevitsSTEP1复制代码库并安装运行环境gitclonehttps://github.com/Plachtaa/VITS-fast-fine-tuning.gitpipinstallimagei

基于So-VITS-SVC4.1声音克隆音频异常的解决办法

通常在使用VITS进行声音克隆的时候出现声音沙哑或者大佐味,就是日本腔调,这个一方面是由于模型训练的问题,如果觉得模型训练没有问题的话就是参数,或者其他原因。这里介绍一个通用的解决办法。文章目录声音预测参数音频生成声音预测参数按照以下图片进行设置获取模型。上传好音频之后点击这些选项,然后生成音频。音频生成首先使用微软的TTS进行文本转语音的操作,这里有个技巧就是不要整篇文字扔进去,拆分分段生成音频,然后克隆。具体为什么自己体会吧,这个是我尝试了多少次成功的。先整理好你的文件目录如图。这里面的TTS_apiKey要换成你的,split_and_accumulate方法后面的50是拆分字数间隔。

AI数字人:基于VITS-fast-fine-tuning构建多speaker语音训练

1VITS模型介绍        VITS(VariationalInferencewithadversariallearningforend-to-endText-to-Speech)是一种语音合成方法,它使用预先训练好的语音编码器(vocoder声码器)将文本转化为语音。        VITS的工作流程如下:       (1)将文本输入VITS系统,系统会将文本转化为发音规则。       (2)将发音规则输入预先训练好的语音编码器(vocoder),vocoder会根据发音规则生成语音信号的特征表示。       (3)将语音信号的特征表示输入预先训练好的语音合成模型,语音合成模型会

AI孙燕姿爆火背后:语音转换技术so-vits-svc

AIGC的风最近终于吹到了语音生成领域。上面视频中"孙燕姿"翻唱周杰伦的《七里香》,该歌是AI歌唱,并非孙燕姿本人。背后核心技术来自声音转换,voiceconvertion,而不是之前我们讲过的声音克隆,voiceclone。语音转换语音转换,voiceconvertion,简称VC。简单来说,就是把一个人的声音转换成另一个人的声音,保留说话或者歌唱的内容。可见模型的输入是音频,而不像TTS任务,输入为文本。一般VC任务都包含以下三个模块,从音频中提取信息的contentencoder,常用特征PPG,现在也有自监督模型去提特征如Hubert;第二个模型是声学模型,这层主要是将音频的特征信息,

AI数字人打造之基于VITS模型的中文语音生成训练

1VITS模型介绍        VITS(VariationalInferencewithadversariallearningforend-to-endText-to-Speech)是一种结合变分推理(variationalinference)、标准化流(normalizingflows)和对抗训练的高表现力语音合成模型。       VITS模型是韩国科学院在2021年6月提出的,VITS通过隐变量而非频谱串联起来语音合成中的声学模型和声码器,在隐变量上进行随机建模并利用随机时长预测器,提高了合成语音的多样性,输入同样的文本,能够合成不同声调和韵律的语音。       论文地址:VITS

【AI项目实战】某语言模型-stable diffusion-vits-cqhttp 实现能对话能语音能绘画的Q群机器人

好久没写文章了,终于想起来我有个博客账号系列。。项目已开源在github上。文章已滤敏,一切涉及语言模型名字的内容都以某语言模型代替提示:AI绘画部分建议6G显存以上。cqhttp用于接收群友消息,并回复消息。某语言模型基于这种对话式的语言模型,可以对用户的聊天进行响应。目前已额外支持glm离线模型某语言模型+stablediffusion从用户的聊天信息中提取绘画所需的关键词。SD衍生功能权重更换,VAE更换,Lora查询贴个群友生成的美图stablediffusion图生图功能,与文生图功能一样都是常用功能。某语言模型+vits让用户自己选择最喜欢的动漫或游戏声线,与自己对话深夜故事会系列

VITS开源项目汇总(更新至2023-06-01)

一、摘要VITS理论基础:https://github.com/jaywalnut310/vitsVITS工程实现:GitHub-rhasspy/piper:Afast,localneuraltexttospeechsystemVITS一键克隆,中英日三语,Plachtaa/VITS-fast-fine-tuningVITS中文模型,优质,分块流式推理,PlayVoice/vits_chineseVITS歌声转换,多人模型,PlayVoice/so-vits-svc-5.0二、起源2.1VITS-官方版本v1.02021年6月11日VITS论文和代码发布:论文:ConditionalVaria

so-vits-svc4.0 中文详细安装、训练、推理使用教程

SO-VITS-SVC4.0详细安装、训练、推理使用步骤本帮助文档为项目so-vits-svc4.0的详细中文安装、调试、推理教程,您也可以直接选择官方README文档撰写:Sucial点击跳转B站主页写在开头:与3.0版本相比,4.0版本的安装、训练、推理操作更为简单1.环境依赖本项目需要的环境:NVIDIA-CUDAPythonPytorchFFmpeg-Cuda在cmd控制台里输入nvidia-smi.exe以查看显卡驱动版本和对应的cuda版本前往NVIDIA-Developer官网下载与系统对应的Cuda版本以Cuda-11.7版本为例(注:本文下述所有配置均在Cuda-11.7下演