faster-whisper

记录第一个复现的实时whisper语音转文字demo

使用的源码来自于github:GitHub-davabase/whisper_real_time:RealtimetranscriptionwithOpenAIWhisper.安装speech_recognition时需要安装依赖包PyAudio、pocketsphinx还需要安装ffmpeg-python否则会报错运行效果如下：点击运行程序后出现modelloaded没有错误然后直接对着麦克风说话即可

复现实时 whisper_real_time time davabase whisper 语音识别人工智能 python pip

【大语言模型】5分钟快速认识ChatGPT、Whisper、Transformer、GAN

5分钟快速认识ChatGPT、Whisper、Transformer、GAN什么是ChatGPT?什么是Whisper?什么是GenerativePre-trainedTransformer架构？什么是自然处理语言NLP的Transformer架构？什么是人工智能的GenerativeAdversarialNetworks？简介：本文通过OpenAI的ChatGPT快速认识ChatGPT、Whisper、Transformer、GAN。什么是ChatGPT?ChatGPT是一个基于GPT（GenerativePre-trainedTransformer）技术的聊天型人工智能模型。GPT是由Op

Transformer 模型 xff xff0c xff0 chatgpt 语言模型 whisper GAN

whisper技术导读2

1、数据处理根据最近利用互联网上的网络规模文本来训练机器学习系统的趋势，我们采用了一种极简的方法来进行数据预处理。与语音识别方面的许多工作相比，我们训练Whisper模型在没有任何显著标准化的情况下预测转录本的原始文本，依靠序列到序列模型的表现力来学习映射话语及其转录形式。这导致了一个非常多样化的数据集，涵盖了来自许多不同环境、录音设置、说话者和语言的广泛音频分布。虽然音频质量的多样性有助于训练模型的鲁棒性，但转录质量（该音频所以对应的文本具备多种text表达）的多样性并不是同样有益的。初步检查显示原始数据集中有大量不合格的转录本。为了解决这个问题，我们开发了几种自动过滤方法来

导读 whisper xff0c xff0 xff 语音识别人工智能

iPhone 演示帮助 : anyone know of a faster screen capture alternative to UIGetScreenImage()?

我正在开发一个iPhone应用程序，我将很快向现场观众演示。我真的很想通过VGA将应用程序实时演示到投影仪，而不是显示屏幕截图。我为iPhone购买了VGA适配器，并已适配RobTerrell'sTVOutManager以满足我的需要。不幸的是，在家里的电视上测试后的帧速率并不是那么好-即使是在iPhone4上也是如此(可能是每秒4-5帧，因人而异)。我认为这种缓慢的原因是我用来捕获设备屏幕(然后显示在外部显示器上)的主要例程是UIGetScreenImage()。这个例程，不再允许作为交付应用程序的一部分，实际上非常慢。这是我用来捕获屏幕的代码(仅供引用mirrorView是一个UI

UIGetScreenImage alternative code section iphone ios screen-capture iphone-privateapi

iPhone 演示帮助 : anyone know of a faster screen capture alternative to UIGetScreenImage()?

UIGetScreenImage alternative code section iphone ios screen-capture iphone-privateapi

whisper报错：UserWarning: FP16 is not supported on CPU； using FP32 instead

报错：PSD:\>whisper.exe.\dz.wav--languageen--modelmediumC:\xxPython310\lib\site-packages\whisper\transcribe.py:114:UserWarning:FP16isnotsupportedonCPU;usingFP32insteadwarnings.warn("FP16isnotsupportedonCPU;usingFP32instead")这个报错说的是whisper要使用cpu，而你音频是fp16的，cpu不支持。要点在于如何解决为什么whisper没使用GPU应该是搞别的时候把torch给搞

UserWarning supported whisper instead pytorch

github开源推荐，基于whisper的字幕生成和字幕翻译工具——再也没有看不懂的片啦

1.简介GitHub-qinL-cdy/auto_ai_subtitlegithub上新开源的一款字幕生成和字幕翻译的整合工具，可以根据视频中提取到的音频来转换成字幕，再根据需要将字幕进行翻译2.效果3.使用1）安装ffmpeg安装ffmpeg的教程比较多，就不详细介绍了，Windows上安装完成后记得添加环境变量，最后在cmd中输入"ffmpeg–version"，有相应打印即可2）拉取代码使用git拉取代码即可，没有git的可以参考网上资料安装一下gitclonehttps://github.com/qinL-cdy/auto_ai_subtitle.git3）安装python依赖使用pi

字幕 mdash config translate xff whisper github 开源人工智能 transformer

Whisper、React 和 Node 构建语音转文本 Web 应用程序

在本文中，我们将使用OpenAI的Whisper以及React、Node.js和FFmpeg构建一个语音转文本应用程序。该应用程序将获取用户输入，使用OpenAI的WhisperAPI将其合成为语音，并输出结果文本。Whisper提供了我用过的最准确的语音到文本转录，即使对于非英语母语人士也是如此。介绍OpenAI解释说，Whisper是一种自动语音识别(ASR)系统，经过680,000小时从网络收集的多语言和多任务监督数据的训练。文本比音频更容易搜索和存储。然而，将音频转录为文本可能非常费力。像Whisper这样的ASR可以检测语音，并非常快速地将音频转录为文本，非常准确，这使其成为一种特别

应用程序语音 code xff xff0c 前端 whisper react.js

【Whisper】《OpenAI Whisper 精读【论文精读】》学习笔记

方法Whisper在论文中表示使用单模型（singlemodel）来完成多个语音任务（multitask），李沐教授认为优点是设计上比较干净；I.关于单模型效果的疑问但是他同时也提出了两个疑问：使用单模型会不会跑得不够快（因为保证多任务的性能需要大参数的模型）假设同时能做五个任务，假设有一个任务做得比较差，怎么办[34:42]2.“多个任务的性能如何取舍呢？”

精读 Whisper xff 任务模型学习

ChatGPT并不是OpenAI开发的唯一一款很棒的AI工具，看看DALL-E、Whisper和Codex吧

OpenAI是ChatGPT背后的创业公司，但该公司还有其他AI产品。DALL-E是OpenAI的AI艺术生成器，可以根据人物的详细文字描述创建图像。Whisper是一种语音识别模型，可以转录和翻译多种语言的音频。ChatGPT自2022年11月推出以来迅速走红。但是背后的创业公司OpenAI还有其他AI产品。就在几个月前，OpenAI取消了其生成式AI艺术生成器DALL-E的等待列表，并且该工具的日活跃用户量已经超过了150万。这种工具在艺术家中引发了争议，他们辩论DALL-E和其他类似的AI艺术生成器对创意工作人员意味着什么。像DALL-E一样，ChatGPT本身也引发了争议，并且甚至引

唯一 ChatGPT xff0c xff0 xff 人工智能

11 12 131415 16 17