草庐IT

faster-whisper-webui

全部标签

Stable-diffusion-webui

AI画图,之前整理的AI换脸CSDN不给通过,说是换脸之类的不给通过,只能自己看了。GitHub:https://github.com/AUTOMATIC1111/stable-diffusion-webuihttps://github.com/AUTOMATIC1111/stable-diffusion-webui安装完毕跑起来大概长这样: 1.下载工程不管你是下载zip压缩包还是gitclone都行;下载完成之后,运行这个文件;过程中有可能会下载依赖模型,所有需要保持外边网络通畅2.汉化UI从网络安装:GitHub-VinsonLaro/stable-diffusion-webui-chi

本地部署_语音识别工具_Whisper

1简介Whisper是OpenAI的语音识别系统(几乎是最先进),它是免费的开源模型,可供本地部署。2dockerhttps://hub.docker.com/r/onerahmet/openai-whisper-asr-webservice3githubhttps://github.com/ahmetoner/whisper-asr-webservice4运行nvidia-dockerrun-d--gpusall-p9000:9000-eASR_MODEL=base-eASR_ENGINE=openai_whisperonerahmet/openai-whisper-asr-webservi

持续进化,快速转录,Faster-Whisper对视频进行双语字幕转录实践(Python3.10)

Faster-Whisper是Whisper开源后的第三方进化版本,它对原始的Whisper模型结构进行了改进和优化。这包括减少模型的层数、减少参数量、简化模型结构等,从而减少了计算量和内存消耗,提高了推理速度,与此同时,Faster-Whisper也改进了推理算法、优化计算过程、减少冗余计算等,用以提高模型的运行效率。本次我们利用Faster-Whisper对日语视频进行双语(日语/国语)转录实践,看看效率如何。构建Faster-Whisper转录环境首先确保本地已经安装好Python3.10版本以上的开发环境,随后克隆项目:gitclonehttps://github.com/ycyy/f

【AIGC】如何在使用stable-diffusion-webui生成图片时看到完整请求参数

文章目录背景开搞使用遇到的问题背景通过代码调用StableDiffusion的txt2img、img2img接口时,很多时候都不知道应该怎么传参,比如如何指定模型、如何开启并使用Controlnet、如何开启面部修复等等,在sd-webui上F12看到的请求也不是正式调用SD的请求,所以当引入新插件或需要使用新功能时,怎么传参成了一个大问题,网上关于接口传参的资料也很少,接下来就介绍一下,如何在每次通过sd-webui点击生成图片时,获取到完整的请求参数。开搞需要使用到开源的项目:https://github.com/huchenlei/sd-webui-api-payload-display

【whisper】在python中调用whisper提取字幕或翻译字幕到文本

最近在做视频处理相关的业务。其中有需要将视频提取字幕的需求,在我们实现过程中分为两步:先将音频分离,然后就用到了whisper来进行语音识别或者翻译。本文将详细介绍一下whisper的基本使用以及在python中调用whisper的两种方式。一、whisper简介whisper是一款用于语音识别的开源库,支持多种语言,其中包括中文。在本篇文章中,我们将介绍如何安装whisper以及如何使用它来识别中文字幕。二、安装whisper首先,我们需要安装whisper。根据操作系统,可以按照以下步骤进行安装:对于Windows用户,可以从whisper的GitHub页面(https://github.

SD整合包,Lora模型下载了放models/Lora文件夹里,但是webui页面加载不出来(已解决)

1.首先用的是秋叶大神的整合包,一键启动后,发现在C站下载的Lora模型加载不出来,刚开始还不小心放在SD大模型的文件夹里,倒是可以看到,但是生成图像的时候会提示是Lora模型,不是大模型,不匹配啥的,生成失败;2.先描述一下我的问题,Lora模型放在指定的文件夹D:\BaiduNetdiskDownload\sd-webui-aki-v4.4\models\Lora下,甚至启动器的模型管理页面也能看到Lora模型,但是在webui页面就是重启、刷新都不显示出来,显示暂无内容,就很奇怪;3.然后网上搜了很多,主要是以下这两个链接,有一些提示和解决方法:1)【图片】关于lora文件在webui中

Ubuntu搭建AI画图工具stable diffusion-webui

Ubuntu搭建安装依赖项安装以下依赖项:#Debian-based:sudoaptinstallwgetgitpython3python3-venvlibgl1libglib2.0-0#RedHat-based:sudodnfinstallwgetgitpython3#Arch-based:sudopacman-Swgetgitpython3下载并安装WebUI进入您想要安装WebUI的目录,并执行以下命令:wget-qhttps://raw.githubusercontent.com/AUTOMATIC1111/stable-diffusion-webui/master/webui.sh运

OpenAI大动作:Whisper large-v3重塑语音识别技术

在最近的OpenAI首届开发者大会上,一个引人注目的技术亮点是Whisperlarge-v3的发布。这款最新的自动语音识别模型不仅在多语言识别方面取得了显著进步,而且还将很快在OpenAI的API中得到支持。今天,我们就来深入了解这个技术突破,并探讨它如何改变我们与机器的交流方式。Whisperlarge-v3:多语言识别的强大进步Whisperlarge-v3是OpenAI继续在语音识别领域深耕的最新成果。这个模型不仅提高了识别的准确性,还大幅扩展了对不同语言的支持范围。无论是在嘈杂的环境中还是面对各种口音,Whisperlarge-v3都能提供出色的识别效果。这意味着无论用户身处何地,都能

ubuntu使用whisper和funASR-语者分离-二值化

文章目录一、选择系统1.1更新环境二、安装使用whisper2.1创建环境2.1安装2.1.1安装基础包2.1.2安装依赖3测试13测试2语着分离创建代码`报错ModuleNotFoundError:Nomodulenamed'pyannote'``报错Nomodulenamed'pyannote_whisper'`三、安装使用funASR1安装1.1安装Conda(可选)1.2安装Pytorch(版本>=1.11.0)1.3安装funASR1.4安装modelscope(可选)1.5如何从本地模型路径推断(可选)2使用funASR2.1使用funASR2.2使用pyannote.audio进

【Keras计算机视觉】Faster R-CNN神经网络实现目标检测实战(附源码和数据集 超详细)

需要源码请点赞关注收藏后评论区留言私信~~~一、目标检测的概念目标检测是计算机视觉和数字图像处理的一个热门方向,广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域,通过计算机视觉减少对人力资本的消耗,具有重要的现实意义。因此,目标检测也就成为了近年来理论和应用的研究热点,它是图像处理和计算机视觉学科的重要分支,也是智能监控系统的核心部分,同时目标检测也是泛身份识别领域的一个基础性的算法,对后续的人脸识别、步态识别、人群计数、实例分割等任务起着至关重要的作用。目标检测的任务是找出图像中所有感兴趣的目标,并确定它们的位置和类别,由于各类物体有不同的形状,姿态,加上成像时受光照,遮挡等