Whisper微调冲刺将于12月5日至19日举行,我们将提供计算资源、演讲以及与Transformers团队的OfficeHour活动等各种资源。这两周的时间里,我们将与全球的社区成员们一起对Whisper模型进行微调,用选定的语言构建最先进的语音识别系统。请加入我们共同来完成这个目标,并尽可能的帮助更多其他社区成员们。如有需要且资源可用,我们的云计算合作伙伴LambdaLabs将免费提供A10040GB的GPU算力。注册Whisper微调冲刺竞赛活动活动注册表格:https://bit.ly/WhisperFineTuningSprintCN加入官方Discord(hf.co/join/di
openai开源的语音转文字支持多语言在huggingface中使用例子。目前发现多语言模型large-v2支持中文是繁体,因此需要繁体转简体。后续编写微调训练例子GitHub地址:https://github.com/openai/whisper!pipinstallzhconv!pipinstallwhisper!pipinstalltqdm!pipinstallffmpeg-python!pipinstalltransformers!pipinstalllibrosafromtransformersimportWhisperProcessor,WhisperForConditionalG
分享一波Whisper的应用,感兴趣的朋友可以试一试。01【Whispering:基于whisper的流语音转录(字幕生成)】Whispering-Streamingtranscriberwithwhisper GitHub:github.com/shirayu/whispering02【用youtube-dl+OpenAI'sWhisper为Youtube视频自动生成字幕】AutomaticYouTubesubtitlegeneration-UsingOpenAI'sWhispertoautomaticallygenerateYouTubesubtitles GitHub:github.
上一篇文章介绍了怎么用OpenAI的翻译模型whisper实现语音转中字的基本操作,在文章中也明确了该操作存在的三个问题:处理速度慢。存在幻听现象,字幕准确度不太理想。要安装比较多的环境才能运行,对一般用户不太友好。本篇文章将逐一介绍解决这些遗留问题的方法,并把整个项目开源。对于编程小白,可以直接跳到文章的最后下载作者打包好的语言转中字软件玩一玩。1.优化处理速度在前面的文章中我们使用的whisper版本是OpenAI开源的原版,其处理速度确实也就那样。基础篇的测试中,在一台配置为CPU5900X、GPU4090的PC上使用几个不同的模型将一集接近24分钟的《工作细胞》(日语语音)转为英语字幕
1、原始官方形式安装参考:https://github.com/openai/whisperhttps://blog.csdn.net/weixin_44011409/article/details/127507692安装安装Whisper和ffmpeg(#onUbuntuorDebiansudoaptupdate&&sudoaptinstallffmpegonWindowsusingChocolatey(https://chocolatey.org/)chocoinstallffmpegonWindowsusingScoop(https://scoop.sh/)scoopinstallffm
微信公众号“dotNET跨平台”中的文章《OpenAI的离线音频转文本模型Whisper的.NET封装项目》介绍了基于.net封装的开源语音辨识Whisper神经网络项目Whisper.net,其GitHub地址见参考文献2。本文基于Whisper.net帮助文档中的示例,测试Whisper.net的基本用法。 创建基于.net6的Winform项目,然后在NuGet包管理器中搜索并安装Whisper.net包,如下图所示。注意,如果搜索Whisper,还会搜到一个名为WhisperNet的包,这个包跟Whisper.net的用法不同,也不能通用,注意不要安装错了。 在测试程序之前,需
文章目录一、安装ffmpeg二、安装torch等相关组件三、安装Whisper四、下载模型五、测试效果六、cpu与gpu解码的耗时对比参考文献一、安装ffmpegyumlocalinstall--nogpgcheckhttps://download1.rpmfusion.org/free/el/rpmfusion-free-release-7.noarch.rpmyuminstallffmpegffmpeg-devel二、安装torch等相关组件condainstallpytorchtorchvisiontorchaudiopytorch-cuda=11.7-cpytorch-cnvidiac
语音识别是人工智能中的一个领域,它允许计算机理解人类语音并将其转换为文本。该技术用于Alexa和各种聊天机器人应用程序等设备。而我们最常见的就是语音转录,语音转录可以语音转换为文字记录或字幕。wav2vec2、Conformer和Hubert等最先进模型的最新发展极大地推动了语音识别领域的发展。这些模型采用无需人工标记数据即可从原始音频中学习的技术,从而使它们能够有效地使用未标记语音的大型数据集。它们还被扩展为使用多达1,000,000小时的训练数据,远远超过学术监督数据集中使用的传统1,000小时,但是以监督方式跨多个数据集和领域预训练的模型已被发现表现出更好的鲁棒性和对持有数据集的泛化,所
语音转文字在许多不同领域都有着广泛的应用。以下是一些例子:1.字幕制作:语音转文字可以帮助视频制作者快速制作字幕,这在影视行业和网络视频领域非常重要。通过使用语音转文字工具,字幕制作者可以更快地生成字幕,从而缩短制作时间,节省人工成本,并提高制作效率。2.法律文书:在法律领域,语音转文字可以帮助律师和律所将听证会、辩论和其他法律活动的录音转化为文字文档。这些文档可以用于研究、起草文件和法律分析等目的,从而提高工作效率。3.医疗文档:医疗专业人员可以使用语音转文字技术来记录病人的医疗记录、手术记录和其他相关信息。这可以减少错误和遗漏,提高记录的准确性和完整性,为患者提供更好的医疗服务。4.市场调
摘要whisper开源之后,很多相关的衍生产品也开源了,比如faster-whisper,它是一个比whisper转录更快的技术实现,转录速度是whisper的4倍,并且占用的显存更少,占用显存是whisper的1/2。而我们这次要讲的是faster-whisper-webui是内置了VAD的支持,可以很精准的定位到每一句话的开始和结束,对于转录长音视频很有意义,可以防止转录长音视频出现幻听的情况。1、安装faster-whisper-webui1.1、faster-whisper-webui简介faster-whisper-webui顾名思义是faster-whisper的web网页版本,当