草庐IT

Whisper-jax

全部标签

语音识别whisper的介绍、安装、错误记录

介绍Whisper是OpenAI于2022年9月份开源的通用的语音识别模型。它是在各种音频的大型数据集上训练的模型,也是一个可以执行多语言语音识别、语音翻译和语言识别的多任务模型。论文链接:https://arxiv.org/abs/2212.04356github链接:https://github.com/openai/whisper安装Whisper主要是基于Pytorch实现,所以需要在安装有pytorch的环境中使用。1、安装Whisperpipinstall-Uopenai-whisper或者pipinstallgit+https://github.com/openai/whispe

两天star量破千:OpenAI的Whisper被蒸馏后,语音识别数倍加速

前段时间,「霉霉大秀中文」的视频在各个社交媒体走红,随后又出现了「郭德纲大秀英语」等类似视频。这些视频很多都出自一个名叫「HeyGen」的AI应用之手。不过,从HeyGen现在的火爆程度来看,想用它制作类似视频可能要排很久。好在,这并不是唯一的制作方法。懂技术的小伙伴也可以寻找其他替代方案,比如语音转文字模型Whisper、文字翻译GPT、声音克隆+生成音频so-vits-svc、生成符合音频的嘴型视频GeneFace++dengdeng。其中,这个语音转文字的Whisper模型非常好用。Whisper是OpenAI研发并开源的一个自动语音识别(ASR,AutomaticSpeechRecog

持续进化,快速转录,Faster-Whisper对视频进行双语字幕转录实践(Python3.10)

Faster-Whisper是Whisper开源后的第三方进化版本,它对原始的Whisper模型结构进行了改进和优化。这包括减少模型的层数、减少参数量、简化模型结构等,从而减少了计算量和内存消耗,提高了推理速度,与此同时,Faster-Whisper也改进了推理算法、优化计算过程、减少冗余计算等,用以提高模型的运行效率。本次我们利用Faster-Whisper对日语视频进行双语(日语/国语)转录实践,看看效率如何。构建Faster-Whisper转录环境首先确保本地已经安装好Python3.10版本以上的开发环境,随后克隆项目:gitclonehttps://github.com/ycyy/f

关于python环境下的语音转文本,whisper或funASR

    因为前阵子,有需求要将语音转为文本再进行下一步操作。感觉这个技术也不算是什么新需求,但是一搜,都是大厂的api,或者是什么什么软件,由于想要免费的,同时也要嵌入在代码中,所以这些都不能用。、    一筹莫展的时候,突然搜到whisper,这是个openai开源的工具,主打就是语音转文本。试了一下,还是不错的,虽然搜到的大多数介绍都是关于怎么直接命令行使用的,但是也有少量关于api的介绍,结合源码看了一下,还是很容易操作的。    这个项目,从安装开始,这个项目可能是太有名了还是啥,有很些大神进行了扩展和优化,所以直接pip安装的话,需要注意是pipinstallopenai-whisp

windows10下whisper的安装使用和CUDA的配置

buzz基于whisper的客户端,可以优先尝试,支持Mac,Windows和Linuxhttps://github.com/chidiwilliams/buzzhttps://github.com/chidiwilliams/buzz whisper是OpenAI发布的一个的神经网络,主要用于语音识别,一时兴起就想玩一玩,下面是它的github链接(安装时需要全局代理才比较快)GitHub-openai/whisper:RobustSpeechRecognitionviaLarge-ScaleWeakSupervisionRobustSpeechRecognitionviaLarge-Sca

OpenAI Whisper and ChatGPT 语音助手

OpenAIWhisperandChatGPTASRGradioWebUI一环境准备1.1python1.2windows二导入所需要的包三加载模型四定义openai和whisper接口五生成GradioWebUI麦克风输入,展示三种结果输入ASR结果输出文本输出TTS结果一环境准备1.1pythongradio==3.19.1gTTS==2.3.1openai==0.27.0openai-whisper==202301241.2windows使用以下命令安装ffmpegchocoinstallffmpeg需要科学上网,否则连接超时二导入所需要的包importwhisperimportgrad

《AI上字幕》基于openAI研发的whisper模型,语音(视频)一键转文本/字幕/带时间轴/支持多语言/自带翻译《桌面版教程》

简介:OpenAI的chatGPT非常火爆,其实OpenAI旗下的另一个模型实力也十分强大,它就是开源免费的Whisper语音转文本模型,目前为止它是较为顶尖的语音转文本模型当前github上也有许多出色的开发者根据此模型开发出桌面版语音转文字应用。较为出色的分别是Buzz和WhisperDesktop功能:支持将多种语言的视频或者音频文件,转换成字幕文件、带时间轴的文本、纯文本。支持多语言音翻译成英文英文可以使用网页翻译功能翻译成中文用途:字幕文件导入剪辑软件可以一键上字幕,生产力MAX配合PotPlayer能够生成双语字幕,学习英语简直离不开它俩对于纯外语不带字幕靠听力的视频资料,简直不要

mysql - 如何在 JAX-RS( Jersey )应用程序中使用 JNDI 资源?

我正在尝试通过TomcatJNDI资源建立与我的数据库的连接。今天看了很多文章,似乎找不到答案。在我的server.xml中我有:.....在我的网络服务中,我尝试通过以下方式访问资源:InitialContextctx=newInitialContext();DataSourcedata=(DataSource)ctx.lookup("java:comp/env/jdbc/MyDB");Connectionconn=data.getConnection();当我运行代码时,出现以下异常:Nov2,20111:06:20PMcom.sun.jersey.spi.container.Co

Whisper + NemoASR + ChatGPT 实现语言转文字、说话人识别、内容总结等功能

引言2023年,IT领域的焦点无疑是ChatGPT,然而,同属OpenAI的开源产品Whisper似乎鲜少引起足够的注意。Whisper是一款自动语音识别系统,可以识别来自99种不同语言的语音并将其转录为文字。如果说ChatGPT为计算机赋予了大脑,那么Whisper则为其赋予了耳朵。想象一下,在企业应用领域,我们能够利用Whisper将语音转化为文字,然后再借助ChatGPT来进行翻译或总结。接下来,我们将以实际操作为出发点,逐步向您介绍如何利用AI实现音频、视频的内容总结。前期准备GPU首先,我们需要解决硬件方面的问题。虽然OpenAI提供了HTTPAPI来调用Whisper,但对于企业而

【人工智能】Transformers 快速上手: 为 Jax、PyTorch 和 TensorFlow 打造的先进的自然语言处理

为Jax、PyTorch和TensorFlow打造的先进的自然语言处理🤗Transformers提供了数以千计的预训练模型,支持100多种语言的文本分类、信息抽取、问答、摘要、翻译、文本生成。它的宗旨是让最先进的NLP技术人人易用。🤗Transformers提供了便于快速下载和使用的API,让你可以把预训练模型用在给定文本、在你的数据集上微调然后通过modelhub与社区共享。同时,每个定义的Python模块均完全独立,方便修改和快速研究实验。🤗Transformers支持三个最热门的深度学习库:Jax,PyTorch以及TensorFlow—并与之无缝整合。你可以直接使用一个框架训练你的模型