草庐IT

Faster-Whisper

全部标签

已达到人类水准语音识别模型的whisper,真的有这么厉害吗?

嗨,好久不见,很长时间没有写东西了,所以今天来简单的带大家了解一下语音识别模型Whisper。Whisper是openai在9月发布的一个开源语音识别翻译模型,它的英语翻译的鲁棒性和准确性已经达到了很高的水准,支持99种语言翻译,安装使用都比较简单快捷,现在让我带大家看看whisper的安装和简单使用,过程中也遇到了一些问题,也会把解决办法贴上去,希望对你们有用。环境:Window,Python3.8,安装:1.whiper库安装pipinstallgit+https://github.com/openai/whisper.git运行成功以后cmd界面执行whisper会有如下提示说明安装成功

【C#】Whisper 离线语音识别(微软晓晓语音合成的音频)(带时间戳、srt字幕)...

语音合成&语音识别用微软语音合成功能生成xiaoxiao的语音。用Whisper离线识别合成的语音输出srt字幕。一、语音合成参考这个网址:https://www.bilibili.com/read/cv19064633合成的音频:晓晓朗读-温柔二、Whisper语音识别下载模型后放入程序目录下:请注意,主要示例目前仅使用16位WAV文件运行,因此请确保在运行该工具之前转换您的输入。例如,您可以像这样使用ffmpeg:./ffmpeg.exe-i女孩向男孩表白话-温柔.mp3-ar16000-ac1-c:apcm_s16le女孩向男孩表白话-温柔.wav修改示例代码的默认设置:运行程序,识别结

【C#】Whisper 离线语音识别(微软晓晓语音合成的音频)(带时间戳、srt字幕)...

语音合成&语音识别用微软语音合成功能生成xiaoxiao的语音。用Whisper离线识别合成的语音输出srt字幕。一、语音合成参考这个网址:https://www.bilibili.com/read/cv19064633合成的音频:晓晓朗读-温柔二、Whisper语音识别下载模型后放入程序目录下:请注意,主要示例目前仅使用16位WAV文件运行,因此请确保在运行该工具之前转换您的输入。例如,您可以像这样使用ffmpeg:./ffmpeg.exe-i女孩向男孩表白话-温柔.mp3-ar16000-ac1-c:apcm_s16le女孩向男孩表白话-温柔.wav修改示例代码的默认设置:运行程序,识别结

whisper 强大且开源的语音转文字

说起来语音转换文字,openai旗下的whisper很是好用,推理也很快,同时支持cpu和GPU。GitHub:GitHub-openai/whisper:RobustSpeechRecognitionviaLarge-ScaleWeakSupervision相关的参数和内存使用如下:SizeParametersEnglish-onlymodelMultilingualmodelRequiredVRAMRelativespeedtiny39Mtiny.entiny~1GB~32xbase74Mbase.enbase~1GB~16xsmall244Msmall.ensmall~2GB~6xmed

【开源工具】使用Whisper提取视频、语音的字幕

这里写目录标题一、语音转字幕操作步骤1、下载安装包Assets\WhisperDesktop.zip[^2]2、加载模型2.1下载模型2.1.1进入HuggingFace[^3]的仓库2.1.2选择需要下载的模型2.1.3配置模型路径3、语音转字幕4、实时语言转录功能二、相关简介[^1]特点开发人员指南构建说明其他注意事项绩效说明进一步优化缺少的功能结尾语一、语音转字幕操作步骤1、下载安装包Assets\WhisperDesktop.zip12、加载模型运行WhisperDesktop.exe,启动后加载模型“loadmodel,pleasewait…”,等待其将模型加载到内存。2.1下载模型

.Net 使用OpenAI开源语音识别模型Whisper

.Net使用OpenAI开源语音识别模型Whisper前言OpenAI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的Whisper神经网络,且它亦支持其它98种语言的自动语音辨识。Whisper系统所提供的自动语音辨识(AutomaticSpeechRecognition,ASR)模型是被训练来运行语音辨识与翻译任务的,它们能将各种语言的语音变成文本,也能将这些文本翻译成英文。whisper的核心功能语音识别,对于大部分人来说,可以帮助我们更快捷的将会议、讲座、课堂录音整理成文字稿;对于影视爱好者,可以将无字幕的资源自动生成字幕,不用再苦苦等待各大字幕组的字幕资源;对于外语

英文视频添加中英双语字幕(基于Whisper语音识别和Google翻译)

第一步:安装配置环境,这一步重要介绍安装的环境依赖,可以看完第二章再来看一遍(1)Whisper环境配置可以参考以下博客的内容讲显卡驱动,CUDA和cudnn的安装比较详细,我建议能用GPU加速就尽量使用,Whisper速度有点慢如何在你的电脑上完成whisper的简单部署_Wayne_WX的博客-CSDN博客 Windows使用whisper前需要进行的一些环境配置https://blog.csdn.net/m0_52156129/article/details/129263703我的ffmpeg是使用conda安装的,命令如下(注意:需要安装到自己创建的conda环境):condainst

Ubuntu22.04安装Whisper-jax

1、安装jax1.1、前提条件已经安装好了NVIDIA显卡驱动和CUDA。如果你还没安装,那么你可以参考我的这篇文章。jax是谷歌推出的深度学习框架。这里安装的是GPU版本的jax。1.2、安装源码地址:https://github.com/google/jax官方安装教程更新pip:pipinstall--upgradepip安装jax:cuda11pipinstall--upgrade"jax[cuda11_pip]"-fhttps://storage.googleapis.com/jax-releases/jax_cuda_releases.htmlcuda12pipinstall--u

使用OpenAI的Whisper 模型进行语音识别

原文:https://baijiahao.baidu.com/s?id=1756232395896695428&wfr=spider&for=pc语音识别是人工智能中的一个领域,它允许计算机理解人类语音并将其转换为文本。该技术用于Alexa和各种聊天机器人应用程序等设备。而我们最常见的就是语音转录,语音转录可以语音转换为文字记录或字幕。wav2vec2、Conformer和Hubert等最先进模型的最新发展极大地推动了语音识别领域的发展。这些模型采用无需人工标记数据即可从原始音频中学习的技术,从而使它们能够有效地使用未标记语音的大型数据集。它们还被扩展为使用多达1,000,000小时的训练数据

神经网络实用工具(整活)系列---使用OpenAI的翻译模型whisper实现语音(中、日、英等等)转中字,从此生肉变熟肉---基础篇

最近在做神经网络的研究,偶然间看到OpenAI开源出了一个多国语音转文字的模型,脑海里突然想到余大嘴在华为发布会发布实时语音翻译时满屏弹幕的“???”和“!!!”,于是决定做一个多国语音转简体中文字幕的软件来玩一玩。想法是这样的:通过OpenAI最新发布的翻译模型whisper(可以翻译200多种语言,且其中部分语言的翻译效果已然接近甚至超过人类的神器)加上自己写的一点点程序,做一个傻瓜化的多国语言转中文字幕的软件。完成操作后,只需要通过简单的点击就可实现字幕的生成,从此告别生肉,不用苦等美剧、日剧字幕组的解救,或者毅然决然去学习该国语言。PS:后续如果有空会出一个提高篇,直接将所有东西整合在