草庐IT

Faster-Whisper

全部标签

神经网络实用工具(整活)系列---使用OpenAI的翻译模型whisper实现语音(中、日、英等等)转中字,从此生肉变熟肉---提高篇(附带打包好的程序)

上一篇文章介绍了怎么用OpenAI的翻译模型whisper实现语音转中字的基本操作,在文章中也明确了该操作存在的三个问题:处理速度慢。存在幻听现象,字幕准确度不太理想。要安装比较多的环境才能运行,对一般用户不太友好。本篇文章将逐一介绍解决这些遗留问题的方法,并把整个项目开源。对于编程小白,可以直接跳到文章的最后下载作者打包好的语言转中字软件玩一玩。1.优化处理速度在前面的文章中我们使用的whisper版本是OpenAI开源的原版,其处理速度确实也就那样。基础篇的测试中,在一台配置为CPU5900X、GPU4090的PC上使用几个不同的模型将一集接近24分钟的《工作细胞》(日语语音)转为英语字幕

Whisper 音频转文字模型体验;语音实时转录文字工具

1、原始官方形式安装参考:https://github.com/openai/whisperhttps://blog.csdn.net/weixin_44011409/article/details/127507692安装安装Whisper和ffmpeg(#onUbuntuorDebiansudoaptupdate&&sudoaptinstallffmpegonWindowsusingChocolatey(https://chocolatey.org/)chocoinstallffmpegonWindowsusingScoop(https://scoop.sh/)scoopinstallffm

测试离线音频转文本模型Whisper.net的基本用法

  微信公众号“dotNET跨平台”中的文章《OpenAI的离线音频转文本模型Whisper的.NET封装项目》介绍了基于.net封装的开源语音辨识Whisper神经网络项目Whisper.net,其GitHub地址见参考文献2。本文基于Whisper.net帮助文档中的示例,测试Whisper.net的基本用法。  创建基于.net6的Winform项目,然后在NuGet包管理器中搜索并安装Whisper.net包,如下图所示。注意,如果搜索Whisper,还会搜到一个名为WhisperNet的包,这个包跟Whisper.net的用法不同,也不能通用,注意不要安装错了。  在测试程序之前,需

如何使用OpenAI的whisper

文章目录一、安装ffmpeg二、安装torch等相关组件三、安装Whisper四、下载模型五、测试效果六、cpu与gpu解码的耗时对比参考文献一、安装ffmpegyumlocalinstall--nogpgcheckhttps://download1.rpmfusion.org/free/el/rpmfusion-free-release-7.noarch.rpmyuminstallffmpegffmpeg-devel二、安装torch等相关组件condainstallpytorchtorchvisiontorchaudiopytorch-cuda=11.7-cpytorch-cnvidiac

使用OpenAI的Whisper 模型进行语音识别

语音识别是人工智能中的一个领域,它允许计算机理解人类语音并将其转换为文本。该技术用于Alexa和各种聊天机器人应用程序等设备。而我们最常见的就是语音转录,语音转录可以语音转换为文字记录或字幕。wav2vec2、Conformer和Hubert等最先进模型的最新发展极大地推动了语音识别领域的发展。这些模型采用无需人工标记数据即可从原始音频中学习的技术,从而使它们能够有效地使用未标记语音的大型数据集。它们还被扩展为使用多达1,000,000小时的训练数据,远远超过学术监督数据集中使用的传统1,000小时,但是以监督方式跨多个数据集和领域预训练的模型已被发现表现出更好的鲁棒性和对持有数据集的泛化,所

OpenAI又一神器!Whisper 语音转文字手把手教程

语音转文字在许多不同领域都有着广泛的应用。以下是一些例子:1.字幕制作:语音转文字可以帮助视频制作者快速制作字幕,这在影视行业和网络视频领域非常重要。通过使用语音转文字工具,字幕制作者可以更快地生成字幕,从而缩短制作时间,节省人工成本,并提高制作效率。2.法律文书:在法律领域,语音转文字可以帮助律师和律所将听证会、辩论和其他法律活动的录音转化为文字文档。这些文档可以用于研究、起草文件和法律分析等目的,从而提高工作效率。3.医疗文档:医疗专业人员可以使用语音转文字技术来记录病人的医疗记录、手术记录和其他相关信息。这可以减少错误和遗漏,提高记录的准确性和完整性,为患者提供更好的医疗服务。4.市场调

faster-whisper-webui

摘要whisper开源之后,很多相关的衍生产品也开源了,比如faster-whisper,它是一个比whisper转录更快的技术实现,转录速度是whisper的4倍,并且占用的显存更少,占用显存是whisper的1/2。而我们这次要讲的是faster-whisper-webui是内置了VAD的支持,可以很精准的定位到每一句话的开始和结束,对于转录长音视频很有意义,可以防止转录长音视频出现幻听的情况。1、安装faster-whisper-webui1.1、faster-whisper-webui简介faster-whisper-webui顾名思义是faster-whisper的web网页版本,当

OpenAI的人工智能语音识别模型Whisper详解及使用

1whisper介绍        拥有ChatGPT语言模型的OpenAI公司,开源了Whisper自动语音识别系统,OpenAI强调Whisper的语音识别能力已达到人类水准。        Whisper是一个通用的语音识别模型,它使用了大量的多语言和多任务的监督数据来训练,能够在英语语音识别上达到接近人类水平的鲁棒性和准确性。Whisper还可以进行多语言语音识别、语音翻译和语言识别等任务。Whisper的架构是一个简单的端到端方法,采用了编码器-解码器的Transformer模型,将输入的音频转换为对应的文本序列,并根据特殊的标记来指定不同的任务。        Whisper是一个

AI创作教程之从 Youtube平台视频剪辑生成新闻文章 基于OpenAI Whisper、OpenAI GPT3 和 Stable Diffusion

在这篇文章中,我想展示如何借助不同的软件工具从Youtube上发布的新闻剪辑中全自动生成包含文本和图像的新闻文章。使用当前用于处理媒体数据的AI模型,例如OpenAIWhisper、OpenAIGPT3和StableDiffusion。OpenAIWhisper是最近发布的模型,用于将音频数据转换为具有前所未有质量的书面文本。它已作为开源软件免费提供,并可作为Python库下载,网址为https://github.com/openai/whisper大语言模型中的经典“GPT3”并非免费提供,但可以通过付费API集成。我在这里使用它来创建一个简短的摘要,其中包含基本新闻事实和提取文本的新闻标题

使用Python轻松识别音频中文字(Whisper)

使用Python轻松识别音频中文字一、前言在开会或是讨论问题的时候,我们总有一些内容需要记录下来。但由于各种原因,我们无法做到全面细致的记录。事后我们可能需要补充这些细节性内容,而回放视频或是录音费时费力,这时候语音识别可以帮助我们轻松解决这一痛点。目前,常见的语音识别服务以收费的居多,而免费且识别效果较好的也有。比如,由OpenAI开发的Whisper。二、Whisper简介Whisper是由OpenAI基于Python开发的能够识别多国语言的语音识别模型,同时能将识别结果翻译为指定语言。OpenAI的官方介绍:Whisper是一种通用的语音识别模型。它是在不同音频的大型数据集上训练的,也是