GptSoVits_草庐IT

这个号称5秒克隆，或者用1分钟音频训练10分钟就能达到原声效果。5秒的号称，只要是，什么几秒的，大家可以完全不要想了，什么知更鸟，什么火山，包括本次的GptSoVits的效果肯定是不行的，数据太短效果不可能达到。所以这些都听不出来本人的声音。新测试，拿35秒的高质量音频训练，效果确实还可以吊打目前世面一切中文训练的。新测试，过长的音频会出现漏字和多读的问题，这不是vits的问题，不管是数字人还是音频都会出现刚开始很好，越来越差的情况。这种情况不是问题，分步用短的音频或者视频合成，然后在将多段短音频合并就能得到完美的结果。重点关注1分钟的音频训练10分钟，是否能赶超阿里的kantts。阿里1分钟