草庐IT

如何一键生成字幕,如何快速处理生肉资源?借助whisper语音识别系统生成.srt字幕文件 手把手教学在Windows、CPU版本下whisper的安装与使用,快速上手!

目录一.前言二.本机环境三.安装步骤:步骤1:下载Git并添加环境变量步骤2:下载ffmpeg并添加环境变量步骤3:安装pytorch步骤4:安装whisper四.whisper的应用应用1:识别mp3歌曲中的歌词应用2:识别mp4视频文件,以MV歌曲和英文TED演讲为例进行测试①whisper识别MV歌曲②whisper识别TED英文演讲应用3:whisper识别生成文件.srt字幕的使用五.结语一.前言Whisper是OpenAI开源的语音识别网络,支持98中语言,用于语音识别和翻译等任务。我们可以将歌曲的歌词进行识别,将无字幕的视频资源自动生成字母,极大方便了用户。同时,whisper可

神经网络实用工具(整活)系列---使用OpenAI的翻译模型whisper实现语音(中、日、英等等)转中字,从此生肉变熟肉---提高篇(附带打包好的程序)

上一篇文章介绍了怎么用OpenAI的翻译模型whisper实现语音转中字的基本操作,在文章中也明确了该操作存在的三个问题:处理速度慢。存在幻听现象,字幕准确度不太理想。要安装比较多的环境才能运行,对一般用户不太友好。本篇文章将逐一介绍解决这些遗留问题的方法,并把整个项目开源。对于编程小白,可以直接跳到文章的最后下载作者打包好的语言转中字软件玩一玩。1.优化处理速度在前面的文章中我们使用的whisper版本是OpenAI开源的原版,其处理速度确实也就那样。基础篇的测试中,在一台配置为CPU5900X、GPU4090的PC上使用几个不同的模型将一集接近24分钟的《工作细胞》(日语语音)转为英语字幕

神经网络实用工具(整活)系列---使用OpenAI的翻译模型whisper实现语音(中、日、英等等)转中字,从此生肉变熟肉---基础篇

最近在做神经网络的研究,偶然间看到OpenAI开源出了一个多国语音转文字的模型,脑海里突然想到余大嘴在华为发布会发布实时语音翻译时满屏弹幕的“???”和“!!!”,于是决定做一个多国语音转简体中文字幕的软件来玩一玩。想法是这样的:通过OpenAI最新发布的翻译模型whisper(可以翻译200多种语言,且其中部分语言的翻译效果已然接近甚至超过人类的神器)加上自己写的一点点程序,做一个傻瓜化的多国语言转中文字幕的软件。完成操作后,只需要通过简单的点击就可实现字幕的生成,从此告别生肉,不用苦等美剧、日剧字幕组的解救,或者毅然决然去学习该国语言。PS:后续如果有空会出一个提高篇,直接将所有东西整合在