草庐IT

Audio-Diffusion

全部标签

c++ - Microsoft Virtual Audio Device Driver Sample (MSVAD) 仅创建 44 字节文件

我目前正在研究MSVAD简单驱动程序。不幸的是,它没有按照我希望的方式工作。当一个新程序启动时,它在C:\下创建为STREAM_NN.WAV不幸的是,这个文件只有44字节大小(只包含文件头)。我附加了调试器View并得到了这个输出:MSVAD:[CMiniportWaveCyclic::NewStream]MSVAD:[CMiniportWaveCyclicMSVAD::ValidateFormat]MSVAD:[CMiniportWaveCyclic::NewStream]MSVAD:[CMiniportWaveCyclicMSVAD::ValidateFormat]MSVAD:CM

Windows shell : How can I get the audio device(s) name(s)?

Iamnotsureifthisisstrictlyaprogrammingquestion,aslongasIdon'tmindtouseadditionalsoftwareinordertosolvetheproblem,aslongasitkeepsbeingscriptableorcommand-line(thisis:anotGUIsolution).Anyway,Ihavepostedanother(abitdifferent)questionatSuperUser.Bytheway,IwillupdatehereifIgettheanswerthere.我的Windows

c++ - 如何判断插入的CD是不是Audio CD?

与GetLogicalDrives和GetDriveType,我可以枚举我的Windows机器上的所有CD-ROM驱动器。然后我如何判断其中哪些包含音频CD(而不是数据CD或DVD)? 最佳答案 也许这可以帮助:http://www.codeproject.com/KB/audio-video/SimpleAudioCD.aspxThedatastoredonCDsisdeterminedinsectors.A"normal"CD-sectortakes2048bytes(2KB)ofsize.Somethingspecialabo

如何创建 LoRA 并应用到 Stable Diffusion WebUI 里

本着觉知此事要躬行的态度,笔者没有去看任何国内的教程,依靠着纯粹在Github上翻阅原版代码仓库,找到了解决方案准备数据集LoRA的特点就是几张图就够,并且不需要复杂的文本注释。所以,你的数据集,就是一堆散装照片,缩放到正确的尺寸(512x512对应SD1.x,768x768对应SD2.x)然后准备简单一句话即可,比如aphotoofuseryk下载diffusers提供的脚本安装diffusers库和依赖同时从Github上找到脚本,和requirements.txt文件https://github.com/huggingface/diffusers/tree/main/examples/d

0基础学习diffusion_model扩散模型【易理解的公式推导】Denoising Diffusion Probabilistic Models

0基础学习diffusion_model扩散模型【易理解的公式推导】一、概述二、扩散过程(已知X0求Xt)三、逆扩散过程(已知Xt求Xt-1)1。算法流程图四、结论五、损失函数六、心得体会(优缺点分析)一、概述DDPM论文链接:JonathanHo_DenoisingDiffusionProbabilisticModels(NeurIPS2020)去噪扩散概率模型。项目地址:https://github.com/hojonathanho/diffusion本文是笔者在学习扩散模型时的一些笔记与心得,在公式推导过程中能够保证自己是一步一步去推导并且理解了的。概述是我认为比较重要的部分能够帮助理解

AI-多模态-文本->图像-2021:Stable Diffusion【开源】【目前开源模型中最强】

最近大火的StableDiffusion也开源了(20220823);我也本地化测试了一下效果确实比Dall-Emini强太多了,对于我们这些玩不上Dall-E2的这个简直就是就是捡钱的感觉,当然后期跑起来,稍微不注意显存就炸了。这里我写一下安装过程,具体分为两个安装流程;流程1--Hubggingface的方式安装使用Huggingface的模式进行直接安装。CompVis/stable-diffusion-v1-1·HuggingFace​huggingface.co/CompVis/stable-diffusion-v1-1正在上传…重新上传取消注册第一个工作需要注册账户,可以关联git

Stable Diffusion-webUI ckpt模型、lora模型的区别和使用

一、常用的两种模型:ckpt和Lora分别是什么?有什么区别?1、CKPT(CheckPoint)经过训练的图片合集,被称作模型,也就是chekpoint,体积较大,一般真人版的单个模型的大小在7GB左右,动漫版的在2-5个G之间早期的CKPT后缀名是ckpt,如今新的CKPT后缀名都是safetensors2、Lora是一种体积较小的绘画模型,是对大模型的微调。与每次作画只能选择一个大模型不同,lora模型可以在已选择大模型的基础上添加一个甚至多个。一般体积在几十到几百兆左右。后缀也是safetensors二、如何区分?1、CKPT偏大普遍1G以上,Lora相对而言偏小几十到几百昭2、C站下

【初学音频】Android的Audio系统之AudioTrack

目录前言  1.AudioTrack2.用例介绍2.1过程2.2数据加载模式2.3音频流的类型2.4Buffer分配和Frame的概念3.AudioTrack(Java空间)分析3.1AudioTrack的构造3.2AudioTrackJniStorage分析3.2.1 共享内存介绍3.2.2MemoryHeapBase和MemoryBase类介绍3.2.3play和write的分析3.2.4release的分析3.2.5AudioTrack(Java空间)的分析总结4.AudioTrack(Native空间)分析4.1 newAudioTrack和set分析4.1.1 IAudioTrack

C# Audio - 如何时间拉伸(stretch)(不同的节奏,相同的音调)

我正在尝试用C#(VS2008)制作一个winform应用程序,它可以加载mp3(其他格式也不错,但至少是mp3)并且能够在不影响音调的情况下调整播放速度(速度)。我真的不需要任何其他音频效果。我尝试使用DirectShow,但它似乎不提供时间拉伸(stretch)功能。我能够合并irrklang但这似乎也没有时间拉伸(stretch)能力。所以现在我转到了SoundTouch.这当然有能力,但我不清楚如何在C#中实现。几天后,我所完成的就是在SoundTouchDLL上使用DLLImport,并且能够成功检索版本号。在这一点上,我什至不确定我是否可以用SoundTouch做我想做的事

Stable Diffusion Lora模型训练详细教程

1.介绍通过Lora小模型可以控制很多特定场景的内容生成。但是那些模型是别人训练好的,你肯定很好奇,我也想训练一个自己的专属模型(也叫炼丹~_~)。甚至可以训练一个专属家庭版的模型(familymodel),非常有意思。将自己的训练好的Lora模型放到stableDiffusionlora目录中,同时配上美丽的封面图。2.模型训练步骤2.1训练环境搭建WebUI或者Diffuserhttps://github.com/AUTOMATIC1111/stable-diffusion-webuiLora训练环境https://github.com/kohya-ss/sd-scripts2.2数据准备