草庐IT

Faster-Whisper

全部标签

ChatGPT和Whisper的API基本看点

ChatGPTOfficialAPILearning今天OpenAI开放了ChatGPT背后的GPT-3.5的模型API,模型代号为Turbo,其定价甚至比此前的Davinci都要便宜,1000tokens仅为0.2美分。本次除了GPT-3.5模型API开放外,还在原有的几大任务类型(Text、Code、Image、Embedding、Moderation)基础上增加了Chat、SpeechtoText两个任务,分别对应ChatGPT和Whisper两款此前用户就可以使用的产品。此前OpenAI的GPT-3也早已开放API,我在麦克船长的博客MikeCaptain.com中已介绍过,当时在NL

Faster-Whisper 实时识别电脑语音转文本

Faster-Whisper实时识别电脑语音转文本前言项目搭建环境安装Faster-Whisper下载模型编写测试代码运行测试代码实时转写脚本实时转写WebSocket服务器模式参考前言以前做的智能对话软件接的BaiduAPI,想换成本地的,就搭一套Faster-Whisper吧。下面是B站视频实时转写的截图项目搭建环境所需要的CUDANN已经装好了,如果装的是12.2应该是包含cuBLAS了没装的,可以从下面链接下载装一下,文末的参考视频中也有讲解https://github.com/Purfview/whisper-standalone-win/releases/tag/libsAncan

民大计算机视觉Faster-RCNN实验作业

1简介双阶段目标检测是指将目标检测任务分解为两个阶段进行,第一阶段生成候选框,第二阶段对候选框进行分类和位置回归。具体来说,第一阶段通常使用一种称为“区域提议网络”(RegionProposalNetwork,简称RPN)的模块生成候选框。RPN使用滑动窗口的方式在图像上移动,对每个位置生成若干个大小和长宽比不同的候选框,然后使用卷积神经网络对每个候选框进行分类和回归。第二阶段则使用一个分类器对每个候选框进行分类,判断其是否包含目标,并使用一个回归器对候选框的位置进行微调,得到更准确的目标框。FasterR-CNN是一种经典的双阶段目标检测算法,是R-CNN、FastR-CNN的改进版本。它的

深度学习系列56:使用whisper进行语音转文字

1.openai-whisper这应该是最快的使用方式了。安装pipinstall-Uopenai-whisper,接着安装ffmpeg,随后就可以使用了。模型清单如下:第一种方式,使用命令行:whisperjapanese.wav--languageJapanese--modelmedium另一种方式,使用python调用:importwhispermodel=whisper.load_model("base")result=model.transcribe("audio.mp3",initial_prompt='以下是普通话的句子。')print(result["text"])2.fast

openai-whisper

openai-whisper0.参数说明1.视频语音转文字demo1.提取b站视频中的音频,增加到自己的视频里,并且显示字幕1.下载b站视频到电脑2.提取视频中的音频3.音频转文字4.自己的视频去掉音频,增加新的音频和字幕0.参数说明语音识别模型whisper的参数说明1.视频语音转文字exportCUDA_VISIBLE_DEVICES=3whisper手把手教你从一无所有到财务自由_7.mp3--modellarge-v2--model_dir.--output_dir7--languageChinesedemo1.提取b站视频中的音频,增加到自己的视频里,并且显示字幕1.下载b站视频到电

【深度学习 & 目标检测】R-CNN系列算法全面概述(一文搞懂R-CNN、Fast R-CNN、Faster R-CNN的来龙去脉)

🚀个人主页:为梦而生~关注我一起学习吧!💡相关专栏:深度学习:现代人工智能的主流技术介绍机器学习:相对完整的机器学习基础教学!💡往期推荐:【机器学习基础】一元线性回归(适合初学者的保姆级文章)【机器学习基础】多元线性回归(适合初学者的保姆级文章)【机器学习基础】决策树(DecisionTree)【机器学习基础】K-Means聚类算法【机器学习基础】DBSCAN【机器学习基础】支持向量机【机器学习基础】集成学习【机器学习&深度学习】神经网络简述【机器学习&深度学习】卷积神经网络简述💡本期内容:R-CNN系列算法是经典的two-stage的目标检测算法,相较于one-stage精度更高,但是速度略

20240202在WIN10下使用whisper.cpp

20240202在WIN10下使用whisper.cpp2024/2/214:15【结论:在Windows10下,确认large模式识别7分钟中文视频,需要83.7284seconds,需要大概1.5分钟!效率太差!】83.7284/420=0.19935333333333333333333333333333前提条件,可以通过技术手段上外网!^_首先你要有一张NVIDIA的显卡,比如我用的PDD拼多多的二手GTX1080显卡。【并且极其可能是矿卡!】800¥2、请正确安装好NVIDIA最新的545版本的驱动程序和CUDA、cuDNN。2、安装Torch3、配置whisper识别得到的字幕chs

中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽

君不言语音识别技术则已,言则必称Whisper,没错,OpenAi开源的Whisper确实是世界主流语音识别技术的魁首,但在中文领域,有一个足以和Whisper相颉顽的项目,那就是阿里达摩院自研的FunAsr。FunAsr主要依托达摩院发布的Paraformer非自回归端到端语音识别模型,它具有高精度、高效率、便捷部署的优点,支持快速构建语音识别服务,最重要的是,FunASR支持标点符号识别、低语音识别、音频-视觉语音识别等功能,也就是说,它不仅可以实现语音转写,还能在转写后进行标注,一石二鸟。FunAsr和Whisper对比Mediumvsspeech_paraformer首先配置好Pyth

如何一键生成字幕,如何快速处理生肉资源?借助whisper语音识别系统生成.srt字幕文件 手把手教学在Windows、CPU版本下whisper的安装与使用,快速上手!

目录一.前言二.本机环境三.安装步骤:步骤1:下载Git并添加环境变量步骤2:下载ffmpeg并添加环境变量步骤3:安装pytorch步骤4:安装whisper四.whisper的应用应用1:识别mp3歌曲中的歌词应用2:识别mp4视频文件,以MV歌曲和英文TED演讲为例进行测试①whisper识别MV歌曲②whisper识别TED英文演讲应用3:whisper识别生成文件.srt字幕的使用五.结语一.前言Whisper是OpenAI开源的语音识别网络,支持98中语言,用于语音识别和翻译等任务。我们可以将歌曲的歌词进行识别,将无字幕的视频资源自动生成字母,极大方便了用户。同时,whisper可

【whisper】在python中调用whisper提取字幕或翻译字幕到文本_python whisper

一、whisper简介whisper是一款用于语音识别的开源库,支持多种语言,其中包括中文。在本篇文章中,我们将介绍如何安装whisper以及如何使用它来识别中文字幕。二、安装whisper首先,我们需要安装whisper。根据操作系统,可以按照以下步骤进行安装:对于Windows用户,可以从whisper的GitHub页面(https://github.com/qingzhao/whisper)下载适用的Python版本的whisper安装包,然后运行安装程序。对于macOS用户,可以使用Homebrew(https://brew.sh/)进行安装。在终端中运行以下命令:brewinstal