草庐IT

whisper-ctranslate

全部标签

Whisper实现语音识别转文本

#教程主要参考开源免费离线语音识别神器whisper如何安装,OpenAI开源模型Whisper——音频转文字Whisper是一个开源的自动语音识别系统,它在网络上收集了680,000小时的多语种和多任务监督数据进行训练,使得它可以将多种语言的音频转文字。Whisper的好处是开源免费、支持多语种(包括中文),有不同模型可供选择,最终的效果比市面上很多音频转文字的效果都要好。Whisper目前有5个模型,随着参数的变多,转文字的理解性和准确性会提高,但相应速度会变慢:这篇文章会介绍怎样安装和使用Whisper进行音频转文字。系统环境官方说他们使用的是Python3.9.9andPyTorch1

【MacOS】openai 语音识别模型 whisper 本地部署教程(cpu+mps方案)

目录1.whisper安装openai-whisper参考视频链接与安装过程安装homebrew安装Python(不要超过3.10)安装Pytorch安装ffmpeg安装rust安装whisper注意事项可能报错问题2.无法使用macgpu👉使用whisper.cpp​​​​​​​操作步骤可能报错问题3.生成翻译字幕系统环境:M1promacOS13.61.whisper安装openai-whisper        以下的语言全部支持识别,数字越小的识别越准确GitHub-openai/whisper:RobustSpeechRecognitionviaLarge-ScaleWeakSupe

CodeWhisperer安装教导--一步到位!以及本人使用Whisperer的初体验。

        CodeWhisperer是亚马逊出品的一款基于机器学习的通用代码生成器,可实时提供代码建议。类似 Cursor 和Github AWS CodeWhisperer亚马逊科技的CodeWhisperer是Amazon于2021年12月推出的一款代码补全工具,与GitHub Copilot类似。主要的功能有:代码补全注释和文档补全代码安全问题的辅助定位CodeWhisperer主要由Java、Python、JavaScript、TypeScript、C#相关语料训练而成,在支持上述语言的同时,也支持Ruby、Go、PHP、C++、C、Shell、Scala、Rust、Kotlin

20240202在WIN10下部署faster-whisper

20240202在WIN10下部署faster-whisper2024/2/212:15前提条件,可以通过技术手段上外网!^_首先你要有一张NVIDIA的显卡,比如我用的PDD拼多多的二手GTX1080显卡。【并且极其可能是矿卡!】800¥2、请正确安装好NVIDIA最新的545版本的驱动程序和CUDA、cuDNN。2、安装Torch3、配置whisperhttps://developer.aliyun.com/article/13666622023-11-03持续进化,快速转录,Faster-Whisper对视频进行双语字幕转录实践(Python3.10)https://zhuanlan.z

ubuntu下faster-whisper安装、基于faster-whisper的语音识别示例、同步生成srt字幕文件

文章目录前言一、faster-whisper的安装1.docker及nvidia-docker安装2.镜像下载3.启动容器3.容器中创建用户,安装anaconda二、基于faster-whisper的语音识别1.将cuda和nvidia加入到dl的环境变量中2.安装faster-whisper3.模型下载4.启动jupyternotebook测试是否安装成功三、转srt字幕文件前言上一篇某站视频、音频集合批量下载写了如何下载某站的音频和视频文件,这一篇主要讲解记录一下基于faster-whisper的语音识别怎么做,不包含理论部分,主要包括以下三部分1)faster-whisper的安装2)基

运行Whisper笔记(1)

最近chatGPT很火,就去逛了一下openai的github项目。发现了这个项目。这个项目可以识别视频中的音频,转换出字幕。带着一颗好奇的心就尝试自己去部署玩一玩跟着这篇文章一步步来进行安装,并且跟着这篇文章解决途中遇到的问题。途中还会遇到几个问题:总结一下:1、下载cuDNN时会提示叫你登录Navia的账号,我登录的时候发现内地、香港、新加坡的IP登录不了nvdia-develop的官网,换成美国IP则很顺利。这。。。。2、Ptyhton版本别使用太高的,防止后续pip找不到相关的版本。我原本使用的3.11,后面因为提示找不到相应的版本,换成3.10解决3、pip运行whisper还会提示

利用python+whisper生成视频字幕文件

文章目录前言1.本地环境2.安装所需要的库3.导入相关库4.获取指定路径下的所有视频文件5.导入模型进行音频识别6.将识别结果转换为srt字幕文件7.完成代码前言最近在看一些网课,由于没有字幕看着非常费劲,需要全神贯注的去听。网上很多生成字幕的网站都需要收费,想用某映但是它的智能字幕不允许上传大于两小时的视频。基于这个问题就想着用openai开源的whisper来试试,最终整体的效果还行,硬件不行识别的有点慢,准确率不算高,但是配合音频基本能理解是什么意思,主要看视频更加轻松了。注:由于我有很多视频,所以才用python自己写脚本批量处理,如不需要或者觉得写脚本麻烦可以看看WhisperDes

ChatGPT和Whisper的API基本看点

ChatGPTOfficialAPILearning今天OpenAI开放了ChatGPT背后的GPT-3.5的模型API,模型代号为Turbo,其定价甚至比此前的Davinci都要便宜,1000tokens仅为0.2美分。本次除了GPT-3.5模型API开放外,还在原有的几大任务类型(Text、Code、Image、Embedding、Moderation)基础上增加了Chat、SpeechtoText两个任务,分别对应ChatGPT和Whisper两款此前用户就可以使用的产品。此前OpenAI的GPT-3也早已开放API,我在麦克船长的博客MikeCaptain.com中已介绍过,当时在NL

Faster-Whisper 实时识别电脑语音转文本

Faster-Whisper实时识别电脑语音转文本前言项目搭建环境安装Faster-Whisper下载模型编写测试代码运行测试代码实时转写脚本实时转写WebSocket服务器模式参考前言以前做的智能对话软件接的BaiduAPI,想换成本地的,就搭一套Faster-Whisper吧。下面是B站视频实时转写的截图项目搭建环境所需要的CUDANN已经装好了,如果装的是12.2应该是包含cuBLAS了没装的,可以从下面链接下载装一下,文末的参考视频中也有讲解https://github.com/Purfview/whisper-standalone-win/releases/tag/libsAncan

深度学习系列56:使用whisper进行语音转文字

1.openai-whisper这应该是最快的使用方式了。安装pipinstall-Uopenai-whisper,接着安装ffmpeg,随后就可以使用了。模型清单如下:第一种方式,使用命令行:whisperjapanese.wav--languageJapanese--modelmedium另一种方式,使用python调用:importwhispermodel=whisper.load_model("base")result=model.transcribe("audio.mp3",initial_prompt='以下是普通话的句子。')print(result["text"])2.fast