草庐IT

faster-whisper

全部标签

whisper 语音识别项目部署

1.安装anaconda软件在如下网盘免费获取软件:链接:https://pan.baidu.com/s/1zOZCQOeiDhx6ebHh5zNasA提取码:hfnd2.使用conda命令创建python3.8环境condacreate-nwhisperpython==3.83.进入whisper虚拟环境condaactivatewhisper4.安装cuda10.0的PyTorch环境pip--trusted-hostpypi.tuna.tsinghua.edu.cninstalltorch==1.10.1+cu102torchvision==0.11.2+cu102torchaudio=

Buzz语音转文字安装使用(含Whisper模型下载)

简介:Transcribeandtranslateaudioofflineonyourpersonalcomputer.PoweredbyOpenAI’sWhisper.转录和翻译音频离线在您的个人计算机。由OpenAI的Whisper提供动力。可以简单理解为QT的前端界面,python语言构建服务端,使用Whisper语言模型进行计算语音转文字的软件。痛点在于离线,缺点也很明显,模型较大,高质量模型运算依赖于硬件和算法优化应用场景学习,歌曲提取歌词,视频提取字幕,多媒体信息前置数据提取软件下载从github上进行下载,下载地址https://github.com/chidiwilliams/

python - 使用 Chinese Whispers 算法进行人脸聚类

我正在尝试使用中国耳语算法进行人脸聚类。我已经使用dlib和python为每张脸提取特征并映射到128D向量,如Davisking在https://github.com/davisking/dlib/blob/master/examples/dnn_face_recognition_ex.cpp中所述。.然后我按照那里给出的说明构建了一个图表。我实现了Chinesewhispers算法并应用于此图。谁能告诉我我犯了什么错误?任何人都可以上传使用中国耳语算法进行人脸聚类的python代码吗?这是我的中文耳语代码:importnetworkxasnximportrandomfromrand

python - sys.stdin.readline() 和 input() : which one is faster when reading lines of input, 为什么?

当我需要从STDIN获取输入行时,我正在尝试决定使用哪一个,所以我想知道在不同情况下我需要如何选择它们。我发现以前的帖子(https://codereview.stackexchange.com/questions/23981/how-to-optimize-this-simple-python-program)说:HowcanIoptimizethiscodeintermsoftimeandmemoryused?NotethatI'musingdifferentfunctiontoreadtheinput,assys.stdin.readline()isthefastestonewh

whisper.cpp安装配置

下载代码,代码地址:https://github.com/ggerganov/whisper.cpp下载模型,现有模型如下,small模型基本能达到日常的用途,建议下载small以上的。下载模型的指令:./download-ggml-model.shsmall编译,项目根目录执行make指令,得到main.exe可执行文件,然后就可以实现录音转文字了。录音转文字录音文件只支持16khz的.wav文件。从视频中以16000的采样率提取音频并保存为wav文件的命令:ffmpeg-iinput.mp4-vn-acodecpcm_s16le-ar16000output.wav录音识别指令:./main

python - '{0 }'.format() is faster than str() and ' {}'.format() 使用 IPython %timeit 否则使用纯 Python

所以这是CPython的东西,不太确定它与其他实现的行为是否相同。但是'{0}'.format()比str()和'{}'.format()快。我发布的是Python3.5.2的结果,但是,我用Python2.7.12尝试过,趋势是一样的。%timeitq=['{0}'.format(i)foriinrange(100,100000,100)]%timeitq=[str(i)foriinrange(100,100000,100)]%timeitq=['{}'.format(i)foriinrange(100,100000,100)]1000loops,bestof3:231µsperlo

python - '{0 }'.format() is faster than str() and ' {}'.format() 使用 IPython %timeit 否则使用纯 Python

所以这是CPython的东西,不太确定它与其他实现的行为是否相同。但是'{0}'.format()比str()和'{}'.format()快。我发布的是Python3.5.2的结果,但是,我用Python2.7.12尝试过,趋势是一样的。%timeitq=['{0}'.format(i)foriinrange(100,100000,100)]%timeitq=[str(i)foriinrange(100,100000,100)]%timeitq=['{}'.format(i)foriinrange(100,100000,100)]1000loops,bestof3:231µsperlo

使用 SageMaker 对 Whisper 模型进行微调及部署

使用SageMaker对Whisper模型进行微调及部署Whisper作为OpenAI最新开源的自动语音识别(ASR)模型,采用了编码器-解码器(encoder-decoder)transformer架构,并使用了68万小时的从互联网收集的多语言、多任务的已标注数据进行训练。根据其论文显示,Whisper模型在无需微调(zero-shot)的情况下,在多个数据集的测试上鲁棒性更高,错误率更低。关于Whisper模型的更多细节,参见其官方网站 IntroducingWhisper 以及 GitHub-openai/whisper:RobustSpeechRecognitionviaLarge-S

Whisper JAX 语音识别本地部署

https://nlpcloud.com/zh/how-to-install-and-deploy-whisper-the-best-open-source-alternative-to-google-speech-to-text.htmlwhisperX语音识别本地部署视频教程whisper-jax最详细的安装教程|一个号称比whisper快70倍的语音识别项目|免费开源的语音识别项目whisperX语音识别本地部署_JoeManba的博客-CSDN博客GitHub-sanchit-gandhi/whisper-jax:JAXimplementationofOpenAI'sWhispermo

2023年的深度学习入门指南(24) - 处理音频的大模型 OpenAI Whisper

2023年的深度学习入门指南(24)-处理音频的大模型OpenAIWhisper在这一讲之前,我们所用的大模型都是针对文本的。这一讲我们增加一个新的领域,即音频。我们将介绍OpenAI的Whisper模型,它是一个处理音频的大模型。Whisper模型的用法Whisper是OpenAI开源的模型。它的用法非常简单,只要安装好相关的库,就可以直接用命令行来调用了。安装就一个库:pipinstall-Uopenai-whisper然后就可以直接用命令行来调用了:whisperva1.mp3--languageChinese我们还可以用model参数来选择模型,比如有10GB以上显存就可以选择使用la