草庐IT

神经网络实用工具(整活)系列---使用OpenAI的翻译模型whisper实现语音(中、日、英等等)转中字,从此生肉变熟肉---提高篇(附带打包好的程序)

上一篇文章介绍了怎么用OpenAI的翻译模型whisper实现语音转中字的基本操作,在文章中也明确了该操作存在的三个问题:处理速度慢。存在幻听现象,字幕准确度不太理想。要安装比较多的环境才能运行,对一般用户不太友好。本篇文章将逐一介绍解决这些遗留问题的方法,并把整个项目开源。对于编程小白,可以直接跳到文章的最后下载作者打包好的语言转中字软件玩一玩。1.优化处理速度在前面的文章中我们使用的whisper版本是OpenAI开源的原版,其处理速度确实也就那样。基础篇的测试中,在一台配置为CPU5900X、GPU4090的PC上使用几个不同的模型将一集接近24分钟的《工作细胞》(日语语音)转为英语字幕

神经网络实用工具(整活)系列---使用OpenAI的翻译模型whisper实现语音(中、日、英等等)转中字,从此生肉变熟肉---基础篇

最近在做神经网络的研究,偶然间看到OpenAI开源出了一个多国语音转文字的模型,脑海里突然想到余大嘴在华为发布会发布实时语音翻译时满屏弹幕的“???”和“!!!”,于是决定做一个多国语音转简体中文字幕的软件来玩一玩。想法是这样的:通过OpenAI最新发布的翻译模型whisper(可以翻译200多种语言,且其中部分语言的翻译效果已然接近甚至超过人类的神器)加上自己写的一点点程序,做一个傻瓜化的多国语言转中文字幕的软件。完成操作后,只需要通过简单的点击就可实现字幕的生成,从此告别生肉,不用苦等美剧、日剧字幕组的解救,或者毅然决然去学习该国语言。PS:后续如果有空会出一个提高篇,直接将所有东西整合在