草庐IT

faster-whisper-webui

全部标签

stable diffusion webui中的sampler

StableDiffusion-采样器篇-知乎采样器:StableDiffusion的webUI中,提供了大量的采样器供我们选择,例如Eulara,Heum,DDIM等,不同的采样器之间究竟有什么区别,在操作时又该如何进行选择,本文将会详细讲解采样器是如何工作的,以及各种采…https://zhuanlan.zhihu.com/p/621083328https://github.com/huggingface/diffusers/issues/1633https://github.com/huggingface/diffusers/issues/1633Stablediffusion采样器全解

两天star量破千:OpenAI的Whisper被蒸馏后,语音识别数倍加速

前段时间,「霉霉大秀中文」的视频在各个社交媒体走红,随后又出现了「郭德纲大秀英语」等类似视频。这些视频很多都出自一个名叫「HeyGen」的AI应用之手。不过,从HeyGen现在的火爆程度来看,想用它制作类似视频可能要排很久。好在,这并不是唯一的制作方法。懂技术的小伙伴也可以寻找其他替代方案,比如语音转文字模型Whisper、文字翻译GPT、声音克隆+生成音频so-vits-svc、生成符合音频的嘴型视频GeneFace++dengdeng。其中,这个语音转文字的Whisper模型非常好用。Whisper是OpenAI研发并开源的一个自动语音识别(ASR,AutomaticSpeechRecog

[linux-sd-webui]api化之训练lora

lora的训练使用的文件是https://github.com/Akegarasu/lora-scriptslora训练是需要成对的文本图像对的,需要准备相应的训练数据。1.训练数据准备使用deepbooru/blip生成训练数据,建筑类建议使用blip来生成。2.lora在linux上环境cuda10.1p40python3.7accelerate==0.15.0应该只能在虚拟环境中,在train.sh中把acceleratelaunch--num_cpu_threads_per_process=8换成python,这么改accelerate多卡训练有问题albumentations==0.

持续进化,快速转录,Faster-Whisper对视频进行双语字幕转录实践(Python3.10)

Faster-Whisper是Whisper开源后的第三方进化版本,它对原始的Whisper模型结构进行了改进和优化。这包括减少模型的层数、减少参数量、简化模型结构等,从而减少了计算量和内存消耗,提高了推理速度,与此同时,Faster-Whisper也改进了推理算法、优化计算过程、减少冗余计算等,用以提高模型的运行效率。本次我们利用Faster-Whisper对日语视频进行双语(日语/国语)转录实践,看看效率如何。构建Faster-Whisper转录环境首先确保本地已经安装好Python3.10版本以上的开发环境,随后克隆项目:gitclonehttps://github.com/ycyy/f

stable-diffusion-webui sdxl模型代码分析

采样器这块基本都是用的k-diffusion,模型用的是stability的原生项目generative-models中的sgm,这点和fooocus不同,fooocus底层依赖comfyui中的models,comfy是用load_state_dict的方式解析的,用的load_checkpoint_guess_config函数,这个函数webui中也有。webui在paths中导入了generative-models,在sd_model_config中导入了config.sdxl和config.sdxl_refiner两个config,模型使用sgm下的models/diffusion/D

关于python环境下的语音转文本,whisper或funASR

    因为前阵子,有需求要将语音转为文本再进行下一步操作。感觉这个技术也不算是什么新需求,但是一搜,都是大厂的api,或者是什么什么软件,由于想要免费的,同时也要嵌入在代码中,所以这些都不能用。、    一筹莫展的时候,突然搜到whisper,这是个openai开源的工具,主打就是语音转文本。试了一下,还是不错的,虽然搜到的大多数介绍都是关于怎么直接命令行使用的,但是也有少量关于api的介绍,结合源码看了一下,还是很容易操作的。    这个项目,从安装开始,这个项目可能是太有名了还是啥,有很些大神进行了扩展和优化,所以直接pip安装的话,需要注意是pipinstallopenai-whisp

windows10下whisper的安装使用和CUDA的配置

buzz基于whisper的客户端,可以优先尝试,支持Mac,Windows和Linuxhttps://github.com/chidiwilliams/buzzhttps://github.com/chidiwilliams/buzz whisper是OpenAI发布的一个的神经网络,主要用于语音识别,一时兴起就想玩一玩,下面是它的github链接(安装时需要全局代理才比较快)GitHub-openai/whisper:RobustSpeechRecognitionviaLarge-ScaleWeakSupervisionRobustSpeechRecognitionviaLarge-Sca

stable-diffusion-webui 加载失败 卡在这里求助

C:\Users\Clack\Desktop\NeonMindAI_894978\NeonMindAI\stable-diffusion-webui>callwebui.batvenv"C:\Users\Clack\Desktop\NeonMindAI_894978\NeonMindAI\stable-diffusion-webui\venv\Scripts\Python.exe"Python3.10.6(tags/v3.10.6:9c7b4bd,Aug 12022,21:53:49)[MSCv.193264bit(AMD64)]Version:v1.3.2Commithash:baf6946

【AI绘图本地部署,无显卡部署stable-diffusion-webui吗,使用CPU运算】

stable-diffusion-webui环境准备aconda:https://www.anaconda.com/gitclonehttps://github.com/AUTOMATIC1111/stable-diffusion-webui进入目录cdstable-diffusion-webui创建虚拟环境python-mvenv./virtualenv运行虚拟环境.\virtualenv\Scripts\Activate.ps1安装Cpu运行的pytorch版本pip3installtorchtorchvisiontorchaudio修改根目录下launch.py代码commandline

stable diffusion webui中的modules/processing模块

modules/processing.py->process_images()p.scripts.before_process(p)sd_models.reload_model_weights()sd_vae.reload_vae_weights()res=process_images_inner(p)modules/processing.py->process_images_inner()process_images->process_images_inner()->p:StableDiffusionProcessingseed=get_fixed_seed(p.seed)model_hij