草庐IT

faster-whisper

全部标签

使用openai-whisper 语音转文字

前言:最近由于ChatGPT的大热,AI应用领域再次进入大众的视线,今天介绍一款AI应用whisper可以较为准确的将人声转换为文字(支持多国语言)一、安装安装有两种方式pip和源码编译安装,这里介绍pip安装方式安装python3.9.9和pyTouch1.10.1(安装步骤省略,官网下载安装即可)由于pip的版本使用了指定的pyTouch所以安装最新的python版本会出现问题。python3.9.9安装ffmpeg,下方为各类OS的安装方式#onUbuntuorDebiansudoaptupdate&&sudoaptinstallffmpeg#onArchLinuxsudopacman-

使用openai-whisper 语音转文字

前言:最近由于ChatGPT的大热,AI应用领域再次进入大众的视线,今天介绍一款AI应用whisper可以较为准确的将人声转换为文字(支持多国语言)一、安装安装有两种方式pip和源码编译安装,这里介绍pip安装方式安装python3.9.9和pyTouch1.10.1(安装步骤省略,官网下载安装即可)由于pip的版本使用了指定的pyTouch所以安装最新的python版本会出现问题。python3.9.9安装ffmpeg,下方为各类OS的安装方式#onUbuntuorDebiansudoaptupdate&&sudoaptinstallffmpeg#onArchLinuxsudopacman-

Faster RCNN训练自己的数据集【傻瓜式教程】

一、下载源码本文采用的源码是:https://github.com/dBeker/Faster-RCNN-TensorFlow-Python3二、配置环境由于本文是小白教程,光写几个环境怕有人配置不好或者配置版本搞乱。FasterRCNN配置环境比较复杂。我在这直接贴图我的环境版本图:先安装tensorflow-gpu,然后依次安装cython、opencv-python、easydict、Pillow、matplotlib、scipy,版本的话看我的版本装就行。三、安装C++编译环境根据官网给的安装程序会报错:安装visualstudioC++buildtools时遇到安装包缺失或损坏的问题

Faster RCNN训练自己的数据集【傻瓜式教程】

一、下载源码本文采用的源码是:https://github.com/dBeker/Faster-RCNN-TensorFlow-Python3二、配置环境由于本文是小白教程,光写几个环境怕有人配置不好或者配置版本搞乱。FasterRCNN配置环境比较复杂。我在这直接贴图我的环境版本图:先安装tensorflow-gpu,然后依次安装cython、opencv-python、easydict、Pillow、matplotlib、scipy,版本的话看我的版本装就行。三、安装C++编译环境根据官网给的安装程序会报错:安装visualstudioC++buildtools时遇到安装包缺失或损坏的问题

OpenAI开源语音识别模型Whisper在Windows系统的安装详细过程

文章目录1、安装Python2、安装FFmpeg2.1、配置环境变量3、安装显卡驱动3.1、安装CUDA4、安装PyTorch5、安装whisper6、whisper的使用7、总结8、源码下载9、视频教程1、安装PythonPython的安装很简单,点击这里进行下载。安装完成之后,输入python-V可以看到版本信息,说明已经安装成功了。如果输入python-V命令没有看到上面的这样的信息,要么是安装失败,要么是安装好之后没有自动配置环境变量,如何配置环境变量可以从网上搜索。Python的具体安装过程可以参考这篇文章。2、安装FFmpegffmpeg是专门做音视频处理用的软件,并且是开源的,点

openai的whisper语音识别介绍

openAI发布了chatgpt,光环一时无两。但是openAI不止有这一个项目,它的其他项目也非常值得我们去研究学习。今天说说这个whisper项目https://github.com/openai/whisperta是关于语音识别的。它提出了一种通过大规模的弱监督来实现的语音识别的方法。弱监督是指使用不完全或不准确的标签或注释来训练模型的方法。这种方法可以避免手动标注数据的费时费力,同时也可以利用更多的数据来提高模型的性能。在这个方法中,使用了大量的未标注语音数据和一些已标注的数据来训练一个深度学习模型。这个模型可以自动学习如何从语音信号中提取特征,并将其转换为文本。来看看官方的说明:(不

python - 使用 Fast/Faster-RCNN 在 C++ 上制作对象检测器的最简单方法是什么?

在C++上使用Fast/Faster-RCNN和Caffe制作对象检测器的最简单方法是什么?众所周知,我们可以在Caffe中使用followRCNN(基于区域的卷积神经网络):RCNN:https://github.com/BVLC/caffe/blob/be163be0ea5befada208dbf0db29e6fa5811dc86/python/caffe/detector.py#L174快速RCNN:https://github.com/rbgirshick/fast-rcnn/blob/master/tools/demo.py#L89scores,boxes=im_detect

python - 使用 Fast/Faster-RCNN 在 C++ 上制作对象检测器的最简单方法是什么?

在C++上使用Fast/Faster-RCNN和Caffe制作对象检测器的最简单方法是什么?众所周知,我们可以在Caffe中使用followRCNN(基于区域的卷积神经网络):RCNN:https://github.com/BVLC/caffe/blob/be163be0ea5befada208dbf0db29e6fa5811dc86/python/caffe/detector.py#L174快速RCNN:https://github.com/rbgirshick/fast-rcnn/blob/master/tools/demo.py#L89scores,boxes=im_detect

微调Whisper语音识别模型和加速推理

前言OpenAI在开源了号称其英文语音辨识能力已达到人类水准的Whisper项目,且它亦支持其它98种语言的自动语音辨识。Whisper所提供的自动语音识与翻译任务,它们能将各种语言的语音变成文本,也能将这些文本翻译成英文。本项目主要的目的是为了对Whisper模型使用Lora进行微调,目前开源了好几个模型,具体可以在openai查看,下面列出了常用的几个模型。另外项目最后还对语音识别加速推理,使用了CTranslate2加速推理,提示一下,加速推理支持直接使用Whisper原模型转换,并不一定需要微调。openai/whisper-tinyopenai/whisper-baseopenai/

Faster-RCNN环境搭配及运行教程

Faster-RCNN-TensorFlow-Python35最近正在学习Faster-RCNN,环境历经一天时间终于成功安装,借此记录下整体安装过程本教程是Windows10+Python35+CUDA10.0+cudnn7.4.1.5+tensorflow-gpu1.13.2环境的配置过程所使用的软件包括名称版本CUDA10.0CUDNN7.4.1.5Anaconda34.2.0Pycharm2019.3.5整体过程中所需要的软件包我都放在了网盘之中,需要可自取(若失效,请留言)软件安装包提取码:iskr软件安装VS2019Tip:若已安装VS2015且已安装C++组件可跳过VS的安装Ti