草庐IT

微软推出的ai声音生成神器VALL-E,如何体验,使用?

VALL-E是一款由微软推出的ai声音生成工具,与一般ai声音生成工具不同的是VALL-E可以模仿说话者的情绪和语气来进行语音,显得更加智能有趣。VALL-E官网VALL-E(valle-demo.github.io)VALL-E介绍微软最近发布了一款名为VALL-E的人工智能工具,只需3秒音频即可模仿人说话。该工具经过60000小时英语语音数据的训练,并使用特定语音的3秒剪辑来生成内容。与目前的许多人工智能工具不同,VALL-E可以复制说话者的情绪和语气,即使说话者本人从未说过的单词也可以模仿。康奈尔大学的一篇论文使用VALL-E合成了几种声音,大家可以在GitHub上聆听这些AI合成的音频

VALL-E:微软全新语音合成模型可以在3秒内复制任何人的声音

近日,微软研究人员宣布了一种新的语音合成AI模型 VALL-E,给出3秒样音就可以精确地模拟一个人的声音。一旦它学会了一个特定的声音,VALL-E可以复制说话者的情绪和语气,即使说话者本人从未说过的单词也可以模仿。论文地址:https://arxiv.org/pdf/2301.02111.pdf它的创建者推测,VALL-E可用于高质量的文本转语音应用程序、语音编辑,其中可以编辑一个人的录音并从文本转录中更改(让他们说出他们最初没有说的话),以及与其他生成AI模型(如GPT-3)结合使用时的音频内容创建。GPT-3:https://arstechnica.com/information-tech