faster-whisper-webui

stable diffusion webui中的sampler

StableDiffusion-采样器篇-知乎采样器：StableDiffusion的webUI中，提供了大量的采样器供我们选择，例如Eulara，Heum，DDIM等，不同的采样器之间究竟有什么区别，在操作时又该如何进行选择，本文将会详细讲解采样器是如何工作的，以及各种采…https://zhuanlan.zhihu.com/p/621083328https://github.com/huggingface/diffusers/issues/1633https://github.com/huggingface/diffusers/issues/1633Stablediffusion采样器全解

两天star量破千：OpenAI的Whisper被蒸馏后，语音识别数倍加速

前段时间，「霉霉大秀中文」的视频在各个社交媒体走红，随后又出现了「郭德纲大秀英语」等类似视频。这些视频很多都出自一个名叫「HeyGen」的AI应用之手。不过，从HeyGen现在的火爆程度来看，想用它制作类似视频可能要排很久。好在，这并不是唯一的制作方法。懂技术的小伙伴也可以寻找其他替代方案，比如语音转文字模型Whisper、文字翻译GPT、声音克隆+生成音频so-vits-svc、生成符合音频的嘴型视频GeneFace++dengdeng。其中，这个语音转文字的Whisper模型非常好用。Whisper是OpenAI研发并开源的一个自动语音识别（ASR，AutomaticSpeechRecog

蒸馏语音 span text-align style 人工智能新闻 AI 模型

[linux-sd-webui]api化之训练lora

lora的训练使用的文件是https://github.com/Akegarasu/lora-scriptslora训练是需要成对的文本图像对的，需要准备相应的训练数据。1.训练数据准备使用deepbooru/blip生成训练数据，建筑类建议使用blip来生成。2.lora在linux上环境cuda10.1p40python3.7accelerate==0.15.0应该只能在虚拟环境中，在train.sh中把acceleratelaunch--num_cpu_threads_per_process=8换成python，这么改accelerate多卡训练有问题albumentations==0.

linux-sd-webui 训练 61 train network linux 人工智能扩散模型 stable diffusion

持续进化，快速转录，Faster-Whisper对视频进行双语字幕转录实践(Python3.10)

Faster-Whisper是Whisper开源后的第三方进化版本，它对原始的Whisper模型结构进行了改进和优化。这包括减少模型的层数、减少参数量、简化模型结构等，从而减少了计算量和内存消耗，提高了推理速度，与此同时，Faster-Whisper也改进了推理算法、优化计算过程、减少冗余计算等，用以提高模型的运行效率。本次我们利用Faster-Whisper对日语视频进行双语(日语/国语)转录实践，看看效率如何。构建Faster-Whisper转录环境首先确保本地已经安装好Python3.10版本以上的开发环境，随后克隆项目：gitclonehttps://github.com/ycyy/f

转录双语 00 whisper gt AI综合

stable-diffusion-webui sdxl模型代码分析

采样器这块基本都是用的k-diffusion，模型用的是stability的原生项目generative-models中的sgm，这点和fooocus不同，fooocus底层依赖comfyui中的models，comfy是用load_state_dict的方式解析的，用的load_checkpoint_guess_config函数，这个函数webui中也有。webui在paths中导入了generative-models，在sd_model_config中导入了config.sdxl和config.sdxl_refiner两个config，模型使用sgm下的models/diffusion/D

stable-diffusion-webui diffusion code language-python pre stable diffusion

关于python环境下的语音转文本，whisper或funASR

因为前阵子，有需求要将语音转为文本再进行下一步操作。感觉这个技术也不算是什么新需求，但是一搜，都是大厂的api，或者是什么什么软件，由于想要免费的，同时也要嵌入在代码中，所以这些都不能用。、一筹莫展的时候，突然搜到whisper，这是个openai开源的工具，主打就是语音转文本。试了一下，还是不错的，虽然搜到的大多数介绍都是关于怎么直接命令行使用的，但是也有少量关于api的介绍，结合源码看了一下，还是很容易操作的。这个项目，从安装开始，这个项目可能是太有名了还是啥，有很些大神进行了扩展和优化，所以直接pip安装的话，需要注意是pipinstallopenai-whisp

语音文本 xff0c xff0 xff whisper funASR 语音转文字

windows10下whisper的安装使用和CUDA的配置

buzz基于whisper的客户端，可以优先尝试，支持Mac,Windows和Linuxhttps://github.com/chidiwilliams/buzzhttps://github.com/chidiwilliams/buzz whisper是OpenAI发布的一个的神经网络，主要用于语音识别，一时兴起就想玩一玩，下面是它的github链接（安装时需要全局代理才比较快）GitHub-openai/whisper:RobustSpeechRecognitionviaLarge-ScaleWeakSupervisionRobustSpeechRecognitionviaLarge-Sca

windows whisper xff0c class span cuda

stable-diffusion-webui 加载失败卡在这里求助

C:\Users\Clack\Desktop\NeonMindAI_894978\NeonMindAI\stable-diffusion-webui>callwebui.batvenv"C:\Users\Clack\Desktop\NeonMindAI_894978\NeonMindAI\stable-diffusion-webui\venv\Scripts\Python.exe"Python3.10.6(tags/v3.10.6:9c7b4bd,Aug 12022,21:53:49)[MSCv.193264bit(AMD64)]Version:v1.3.2Commithash:baf6946

stable-diffusion-webui diffusion br stable diffusion

【AI绘图本地部署，无显卡部署stable-diffusion-webui吗，使用CPU运算】

stable-diffusion-webui环境准备aconda：https://www.anaconda.com/gitclonehttps://github.com/AUTOMATIC1111/stable-diffusion-webui进入目录cdstable-diffusion-webui创建虚拟环境python-mvenv./virtualenv运行虚拟环境.\virtualenv\Scripts\Activate.ps1安装Cpu运行的pytorch版本pip3installtorchtorchvisiontorchaudio修改根目录下launch.py代码commandline

部署 stable-diffusion-webui strong li ul python 开发语言

stable diffusion webui中的modules/processing模块

modules/processing.py->process_images()p.scripts.before_process(p)sd_models.reload_model_weights()sd_vae.reload_vae_weights()res=process_images_inner(p)modules/processing.py->process_images_inner()process_images->process_images_inner()->p:StableDiffusionProcessingseed=get_fixed_seed(p.seed)model_hij

processing diffusion process scripts image stable diffusion 人工智能深度学习

20 21 222324 25 26