whisper-ctranslate

whisper.cpp安装配置

下载代码，代码地址：https://github.com/ggerganov/whisper.cpp下载模型，现有模型如下，small模型基本能达到日常的用途，建议下载small以上的。下载模型的指令：./download-ggml-model.shsmall编译，项目根目录执行make指令，得到main.exe可执行文件，然后就可以实现录音转文字了。录音转文字录音文件只支持16khz的.wav文件。从视频中以16000的采样率提取音频并保存为wav文件的命令：ffmpeg-iinput.mp4-vn-acodecpcm_s16le-ar16000output.wav录音识别指令：./main

使用 SageMaker 对 Whisper 模型进行微调及部署

使用SageMaker对Whisper模型进行微调及部署Whisper作为OpenAI最新开源的自动语音识别（ASR）模型，采用了编码器-解码器（encoder-decoder）transformer架构，并使用了68万小时的从互联网收集的多语言、多任务的已标注数据进行训练。根据其论文显示，Whisper模型在无需微调（zero-shot）的情况下，在多个数据集的测试上鲁棒性更高，错误率更低。关于Whisper模型的更多细节，参见其官方网站 IntroducingWhisper 以及 GitHub-openai/whisper:RobustSpeechRecognitionviaLarge-S

微调部署 Whisper xff

Whisper JAX 语音识别本地部署

https://nlpcloud.com/zh/how-to-install-and-deploy-whisper-the-best-open-source-alternative-to-google-speech-to-text.htmlwhisperX语音识别本地部署视频教程whisper-jax最详细的安装教程|一个号称比whisper快70倍的语音识别项目|免费开源的语音识别项目whisperX语音识别本地部署_JoeManba的博客-CSDN博客GitHub-sanchit-gandhi/whisper-jax:JAXimplementationofOpenAI'sWhispermo

部署语音 whisper 识别语音识别人工智能

2023年的深度学习入门指南(24) - 处理音频的大模型 OpenAI Whisper

2023年的深度学习入门指南(24)-处理音频的大模型OpenAIWhisper在这一讲之前，我们所用的大模型都是针对文本的。这一讲我们增加一个新的领域，即音频。我们将介绍OpenAI的Whisper模型，它是一个处理音频的大模型。Whisper模型的用法Whisper是OpenAI开源的模型。它的用法非常简单，只要安装好相关的库，就可以直接用命令行来调用了。安装就一个库：pipinstall-Uopenai-whisper然后就可以直接用命令行来调用了：whisperva1.mp3--languageChinese我们还可以用model参数来选择模型，比如有10GB以上显存就可以选择使用la

入门指南深度 span class punctuation 深度学习音视频 whisper

记录第一个复现的实时whisper语音转文字demo

使用的源码来自于github:GitHub-davabase/whisper_real_time:RealtimetranscriptionwithOpenAIWhisper.安装speech_recognition时需要安装依赖包PyAudio、pocketsphinx还需要安装ffmpeg-python否则会报错运行效果如下：点击运行程序后出现modelloaded没有错误然后直接对着麦克风说话即可

复现实时 whisper_real_time time davabase whisper 语音识别人工智能 python pip

【大语言模型】5分钟快速认识ChatGPT、Whisper、Transformer、GAN

5分钟快速认识ChatGPT、Whisper、Transformer、GAN什么是ChatGPT?什么是Whisper?什么是GenerativePre-trainedTransformer架构？什么是自然处理语言NLP的Transformer架构？什么是人工智能的GenerativeAdversarialNetworks？简介：本文通过OpenAI的ChatGPT快速认识ChatGPT、Whisper、Transformer、GAN。什么是ChatGPT?ChatGPT是一个基于GPT（GenerativePre-trainedTransformer）技术的聊天型人工智能模型。GPT是由Op

Transformer 模型 xff xff0c xff0 chatgpt 语言模型 whisper GAN

whisper技术导读2

1、数据处理根据最近利用互联网上的网络规模文本来训练机器学习系统的趋势，我们采用了一种极简的方法来进行数据预处理。与语音识别方面的许多工作相比，我们训练Whisper模型在没有任何显著标准化的情况下预测转录本的原始文本，依靠序列到序列模型的表现力来学习映射话语及其转录形式。这导致了一个非常多样化的数据集，涵盖了来自许多不同环境、录音设置、说话者和语言的广泛音频分布。虽然音频质量的多样性有助于训练模型的鲁棒性，但转录质量（该音频所以对应的文本具备多种text表达）的多样性并不是同样有益的。初步检查显示原始数据集中有大量不合格的转录本。为了解决这个问题，我们开发了几种自动过滤方法来

导读 whisper xff0c xff0 xff 语音识别人工智能

whisper报错：UserWarning: FP16 is not supported on CPU； using FP32 instead

报错：PSD:\>whisper.exe.\dz.wav--languageen--modelmediumC:\xxPython310\lib\site-packages\whisper\transcribe.py:114:UserWarning:FP16isnotsupportedonCPU;usingFP32insteadwarnings.warn("FP16isnotsupportedonCPU;usingFP32instead")这个报错说的是whisper要使用cpu，而你音频是fp16的，cpu不支持。要点在于如何解决为什么whisper没使用GPU应该是搞别的时候把torch给搞

UserWarning supported whisper instead pytorch

github开源推荐，基于whisper的字幕生成和字幕翻译工具——再也没有看不懂的片啦

1.简介GitHub-qinL-cdy/auto_ai_subtitlegithub上新开源的一款字幕生成和字幕翻译的整合工具，可以根据视频中提取到的音频来转换成字幕，再根据需要将字幕进行翻译2.效果3.使用1）安装ffmpeg安装ffmpeg的教程比较多，就不详细介绍了，Windows上安装完成后记得添加环境变量，最后在cmd中输入"ffmpeg–version"，有相应打印即可2）拉取代码使用git拉取代码即可，没有git的可以参考网上资料安装一下gitclonehttps://github.com/qinL-cdy/auto_ai_subtitle.git3）安装python依赖使用pi

字幕 mdash config translate xff whisper github 开源人工智能 transformer

Whisper、React 和 Node 构建语音转文本 Web 应用程序

在本文中，我们将使用OpenAI的Whisper以及React、Node.js和FFmpeg构建一个语音转文本应用程序。该应用程序将获取用户输入，使用OpenAI的WhisperAPI将其合成为语音，并输出结果文本。Whisper提供了我用过的最准确的语音到文本转录，即使对于非英语母语人士也是如此。介绍OpenAI解释说，Whisper是一种自动语音识别(ASR)系统，经过680,000小时从网络收集的多语言和多任务监督数据的训练。文本比音频更容易搜索和存储。然而，将音频转录为文本可能非常费力。像Whisper这样的ASR可以检测语音，并非常快速地将音频转录为文本，非常准确，这使其成为一种特别

应用程序语音 code xff xff0c 前端 whisper react.js

7 8 91011 12 13