草庐IT

faster-whisper-webui

全部标签

stable diffusion webui + kohya_ss

关于sd,我自己也是新手,就简单记录一下首先是项目地址,https://github.com/AUTOMATIC1111/stable-diffusion-webui然后关于这个webui的使用教程,找到一个博客,但是需要科技才能上。 欢迎|StableDiffusionWebUI使用手冊(简体中文)|Ivon的部落格(ivonblog.com)在部署方面,也是查了很多博客,我这边是部署在autodl服务器上,安装的时候,碰到第一个问题,root用户下不能安装,但是如果新建一个用户的话,又没有python,两难。后来看了下webui.sh中有关于root的注释,其中有一段,注释掉后就不会报错了

OpenAI Whisper探索(一)

1.根据提示安装依赖:安装Whisper前先安装依赖1.1安装torch:ERROR:Couldnotfindaversionthatsatisfiestherequirementtorch(fromversions:none)经过了解torch是pipinstalltorchLookinginindexes:https://mirrors.aliyun.com/pypi/simple/CollectingtorchDownloadinghttps://mirrors.aliyun.com/pypi/packages/a6/41/122f37c99422566ea74b9cce90eb9218

语音识别whisper

Whisper是一个通用的语音识别模型,它使用了大量的多语言和多任务的监督数据来训练,能够在英语语音识别上达到接近人类水平的鲁棒性和准确性1。Whisper还可以进行多语言语音识别、语音翻译和语言识别等任务2。Whisper的架构是一个简单的端到端方法,采用了编码器-解码器的Transformer模型,将输入的音频转换为对应的文本序列,并根据特殊的标记来指定不同的任务2。要使用Whisper模型,您需要安装Python3.8-3.10和PyTorch1.10.1或更高版本,以及一些其他的Python包,如HuggingFaceTransformers和ffmpeg-python2。您还需要在您

大话Stable-Diffusion-Webui-动手开发一个简单的stable-diffusion-webui(五)

文章目录ControlNetAPI构建请求参数ControlNetUI布局上传图片控制ControlNet开关LowVRAM&PixelPerfect预处理/Preprocessor模型/Model控制权重/ControlWeight启动控制的步数/StartingControlStep结束控制的步数/EndingControlStep控制模式/ControlMode缩放模式/ResizeMode最终效果代码仓库ControlNetAPI旧的ControlNet

训练Faster R-CNN+Windows+PyTorch(VOC数据集和自己的数据集)

一.代码和数据集准备1.代码:使用b站up主霹雳吧啦Wz提供的代码:https://github.com/WZMIAOMIAO/deep-learning-for-image-processing/tree/master/pytorch_object_detection/faster_rcnn 2.数据集①PASCALVOC2012数据集下载地址:http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCtrainval_11-May-2012.tar②自己的数据集按VOC数据集格式准备,因为只进行目标检测,按下图层级目录和文件夹命名即可。其中Anno

训练Faster R-CNN+Windows+PyTorch(VOC数据集和自己的数据集)

一.代码和数据集准备1.代码:使用b站up主霹雳吧啦Wz提供的代码:https://github.com/WZMIAOMIAO/deep-learning-for-image-processing/tree/master/pytorch_object_detection/faster_rcnn 2.数据集①PASCALVOC2012数据集下载地址:http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCtrainval_11-May-2012.tar②自己的数据集按VOC数据集格式准备,因为只进行目标检测,按下图层级目录和文件夹命名即可。其中Anno

Whisper 语音识别模型

Whisper语音识别模型Whisper是一种通用的语音识别模型。它是在包含各种音频的大型数据集上训练的,也是一个可以执行多语言语音识别、语音翻译和语言识别的多任务模型。开源项目地址:https://github.com/openai/whisperWhisper语音识别模型Transformer序列到序列模型针对各种语音处理任务进行训练,包括多语言语音识别、语音翻译、口语识别和语音活动检测。这些任务共同表示为由解码器预测的一系列标记,允许单个模型取代传统语音处理管道的多个阶段。多任务训练格式使用一组特殊标记作为任务说明符或分类目标。设置我们使用Python3.9.9和PyTorch1.10.

AI绘画(sd webui)报错mat1 and mat2 shapes cannot be multiplied的处理

问题描述在用webui转换游戏图标的风格时,使用controlnet固定图标样式,运行报错:RuntimeError:mat1andmat2shapescannotbemultiplied(154x1024and768x320),报错说的是pytorch在进行矩阵乘法运算时,第一个矩阵的行数与第二矩阵的列数不相等,无法作乘法。解决方法一头雾水,查了github,google,百度都未找到解决方法,为了后续人少踩坑,把写问题记一下。当更换当前大模型后,再用同样的参数画图,然后就没报错了。所以,解决方法是:更换大模型!声明:不一定对,仅供参考,不喜勿喷。

stable-diffusion-webui 在MACOS中搭建过程

效果图: 1、操作步骤1.1、主要是无法安装几个依赖插件,解决办法:下载到本地自己安装,不使用程序安装1.2、主要是httpsclone仓库无法clone 解决办法:将文件中的https修改为git方式 1.3、模型太大,下载慢,解决办法:单独下载,然后放入对应的目录种2、具体操作文档,需你下面这个小程序码获取。打款小程序发送【stable-diffusion-webui】即可获取线下具体操作文档  

whisper生成字幕python代码实现

defexcute(model_name,file_path,start_time):model=whisper.load_model(model_name)result=model.transcribe(file_path)forsegmentinresult["segments"]:now=arrow.get(start_time)start=now.shift(seconds=segment["start"]).format("YYYY-MM-DDHH:mm:ss")end=now.shift(seconds=segment["end"]).format("YYYY-MM-DDHH:mm