草庐IT

faster-whisper-webui

全部标签

【小沐学Python】Python实现语音识别(Whisper)

文章目录1、简介1.1whisper简介1.2whisper模型2、安装2.1whisper2.2pytorch2.3ffmpeg3、测试3.1命令测试3.2代码测试:识别声音文件3.3代码测试:实时录音识别4、工具4.1WhisperDesktop4.2Buzz4.3Whisper-WebUI结语1、简介https://github.com/openai/whisper1.1whisper简介Whisper是一种通用的语音识别模型。它是在包含各种音频的大型数据集上训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别。OpenAI在2022年9月21日开源了号称其英文语音辨识

OpenAI的Whisper蒸馏:蒸馏后的Distil-Whisper速度提升6倍

1Distil-Whisper诞生Whisper是OpenAI研发并开源的一个自动语音识别(ASR,AutomaticSpeechRecognition)模型,他们通过从网络上收集了68万小时的多语言(98种语言)和多任务(multitask)监督数据对Whisper进行了训练。OpenAI认为使用这样一个庞大而多样的数据集,可以提高模型对口音、背景噪音和技术术语的识别能力。除了可以用于语音识别,Whisper还能实现多种语言的转录,以及将这些语言翻译成英语。目前,Whisper已经有了很多变体,也成为很多AI应用构建时的必要组件。最近,来自HuggingFace的团队提出了一种新变体——Di

stable-diffusion-webui

一、安装:1.下载GitHub-AUTOMATIC1111/stable-diffusion-webui:StableDiffusionwebUI2.创建python环境condacreate-nsdpython=3.103.激活环境condaactivatesd4.下载模型,放到这里models\Stable-diffusion5.启动文件webui-user.bat参考文章:stable-diffusion-webui安装教程(非常详细)从零基础入门到精通,看完这一篇就够了_leah126的博客-CSDN博客

webUI自动化设置报告-allure

简介本文是一篇使用allure工具进行web自动化UI测试报告生成的介绍allure简介allure是一款java开发的报告工具,需要有java环境使用allure有两步:首先生成结果:这一步是使用了allure-pytest插件将结果生成报告这一步是使用了allure的功能,需要配置allure环境使用allure-pytest生成测试结果安装pipinstallallure-pytest在代码中使用,常用的方法如下importallure###用于标记测试####feature相当于一个功能,一个大的模块,将case分类到某个feature中,报告中在behaviore中显示,相当于tes

OpenAI Whisper中文语音识别效果尝试和应用(一)

        近期,OpenAI发布了Whisper语音识别模型,声称其在英语语音识别方面已接近人类水平的鲁棒性和准确性。出于对自动语音识别的兴趣,本人对此进行了一些尝试,看看它对中文语音识别的效果。        本内容仅供对语音识别有兴趣或者仅仅希望应用的入门朋友参考。一、安装测试电脑:MacBookPro 测试系统:MacOSMonterey12.61、安装brew        安装brew的目的是为了下一步安装python.如果已经安装,请跳过。        在终端命令行中执行:/bin/zsh-c"$(curl-fsSLhttps://gitee.com/cunkai/Home

MAC缓解WebUI提示词反推

当前环境信息:在mac上安装好stablediffusion后,能做图片生成了之后,遇到一些图片需要做提示词反推,这个时候需要下载一个插件,参考:https://gitcode.net/ranting8323/stable-diffusion-webui-wd14-tagger安装完成后,可以在这个位置使用,这里是给了一个图片来反推提示词。使用过程中遇到了一些错误记录如下:Loadingwd14-vit-v2-gitmodelfilefromSmilingWolf/wd-v1-4-vit-tagger-v2'(MaxRetryError("HTTPSConnectionPool(host='h

OpenAI Whisper 语音识别 模型部署及接口封装【干货】

一、安装依赖pipinstall-Uopenai-whisper二、安装ffmpegcd/opt#下载5.1版本的ffmpegwgethttp://www.ffmpeg.org/releases/ffmpeg-5.1.tar.gz#解压下载的压缩包tar-zxvfffmpeg-5.1.tar.gz#进入解压后的文件夹cdffmpeg-5.1#安装ffplay需要的依赖sudoapt-getinstalllibx11-devxorg-devlibsdl2-2.0libsdl2-devsudoaptinstallclanglibfdk-aac-devlibspeex-devlibx264-devl

WebUI自动化学习(Selenium+Python+Pytest框架)003

1.元素操作在成功定位到元素之后,我们需要对元素进行一些操作动作。常用的元素操作动作有:(1)send_keys()        键盘动作:向浏览器发送一个内容,通常用于输入框输入内容或向浏览器发送快捷键(2)click()        鼠标左键单击,通常用于点击按钮(3)clear()        清空内容,通常用于输入框内容清空        注意:在进行测试实战时,向输入框发送内容前,要养成先清空的习惯。如果输入前输入框有内容,则send_keys()会在原内容上追加输入,从而影响测试结果。代码示例#导包fromtimeimportsleepfromseleniumimportwe

stable diffusion webui 参数详解

-h,--help:显示帮助信息并退出。--exit:安装后立即终止。--data-dir:指定存储所有用户数据的基本路径,默认为"./"。--config:用于构建模型的配置文件路径,默认为"configs/stable-diffusion/v1-inference.yaml"。--ckpt:稳定扩散模型的检查点路径;如果指定,该检查点将被添加到检查点列表并加载。--ckpt-dir:稳定扩散检查点的目录路径。--no-download-sd-model:即使没有找到模型,也不下载SD1.5模型。--vae-dir:变分自编码器模型的路径。--gfpgan-dir:GFPGAN目录。--gf

​Distil-Whisper:比Whisper快6倍,体积小50%的语音识别模型

内容来源:@xiaohugggDistil-Whisper:比Whisper快6倍,体积小50%的语音识别模型​该模型是由HuggingFace团队开发,它在Whisper核心功能的基础上进行了优化和简化,体积缩小了50%。速度提高了6倍。并且在分布外评估集上的字错误率(WER)不超过1%。它还可以作为Whisper的助手模型用于推测性解码,速度提高了2倍。主要优点:速度-Distil-Whisper的推理速度是Whisper的6倍。尺寸-模型大小减少了49%,更适合资源有限的设备。准确性-词错误率(WER)与Whisper相比只有1%的差距。抗噪声-在嘈杂环境下仍能保持较高的识别准确性。减少