这个号称5秒克隆,或者用1分钟音频训练10分钟就能达到原声效果。5秒的号称,只要是,什么几秒的,大家可以完全不要想了,什么知更鸟,什么火山,包括本次的GptSoVits的效果肯定是不行的,数据太短效果不可能达到。所以这些都听不出来本人的声音。新测试,拿35秒的高质量音频训练,效果确实还可以吊打目前世面一切中文训练的。新测试,过长的音频会出现漏字和多读的问题,这不是vits的问题,不管是数字人还是音频都会出现刚开始很好,越来越差的情况。这种情况不是问题,分步用短的音频或者视频合成,然后在将多段短音频合并就能得到完美的结果。重点关注1分钟的音频训练10分钟,是否能赶超阿里的kantts。阿里1分钟