草庐IT

扩散Transformer

全部标签

揭秘扩散模型背后的“硬核骨架”:一文读懂Backbone在生成艺术与智能决策中的关键作用

引子:揭开扩散模型及其“脊梁骨”的神秘面纱如今,AI创作的精美画作、音视频内容层出不穷,其中有一项技术犹如魔法般从无到有地创造出惊艳作品,那就是扩散模型。而在其运作机制的核心深处,有一个至关重要的结构——我们称之为“backbone”,正是这个强大的支撑架构赋予了模型学习和理解数据的能力。今天,我们就深入浅出地剖析一下扩散模型的backbone,看它是如何扮演着推动模型高效工作的角色。一、走进扩散模型的世界扩散模型是一种基于概率框架的深度学习模型,它模拟了一个数据从清晰状态逐步扩散至噪声状态,然后再逆向恢复至清晰状态的过程。这一过程不仅能够生成高质量的新数据样本,还揭示了复杂数据分布的本质规律

布朗桥扩散模型 BBDM:全网最强图像转换算法,完胜 GAN、扩散模型

布朗桥扩散模型BBDM:全网最强图像转换算法,完胜GAN、扩散模型图像转换发展史完胜GAN完胜扩散模型BBDM结构总结 图像转换发展史论文:https://arxiv.org/pdf/2205.07680.pdf代码:https://github.com/xuekt98/BBDM Isola等人首次提出了基于条件GAN的图像到图像转换统一框架Pix2Pix。Wang等人扩展了Pix2Pix框架以生成高分辨率图像Pix2PixHD。基于CycleGAN和DualGAN的未配对转换方法,使用两个分开的GAN在两个域上进行训练,能够处理未配对的数据。这些一对一映射的方法无法生成多样的输出。为了生成多

Stable Diffusion系列(五):原理剖析——从文字到图片的神奇魔法(扩散篇)

文章目录DDPM论文整体原理前向扩散过程反向扩散过程模型训练过程模型生成过程概率分布视角参数模型设置论文结果分析要想完成SD中从文字到图片的操作,必须要做到两步,第一步是理解文字输入包含的语义,第二步是利用语义引导图片的生成。下面我们从几篇论文入手,首先搞懂以假乱真的图片是如何生成的,再学会对自然语言的理解方式,也就弄懂了文生图的魔法是从何而来。最后,我们会看看SDXL、ControlNet、Turbo以及LCM等变种分别是从哪些角度为SD锦上添花的。这里我们先从扩散讲起。DDPM这是解开图片生成之谜的第一把钥匙,原文是发表于NIPS2020的DenoisingDiffusionProbabi

DiT:Transformers 与扩散模型强强联手

出品人:Towhee技术团队王翔宇、顾梦佳扩散模型在图像生成领域有着难以撼动的地位,而其通常都选择了卷积U-Net作为主干模型。那么在其他领域大杀四方的Transformers在扩散模型中是否还有用武之地呢?基于这一想法,DiT(DiffusionTransformer)利用transformer结构探索了一种新的扩散模型。它不仅继承了Transformer模型类的优秀扩展特性,性能还优于先前使用U-Net的模型。研究表明,扩散模型可以成功地用transformer替换U-Net主干。另外,它还证明了网络复杂性与样本质量之间存在很强的相关性。通过简单地扩展DiT并训练具有高容量主干的潜在扩散模

补齐Transformer规划短板,田渊栋团队的Searchformer火了

最近几年,基于Transformer的架构在多种任务上都表现卓越,吸引了世界的瞩目。使用这类架构搭配大量数据,得到的大型语言模型(LLM)等模型可以很好地泛化用于真实世界用例。尽管有如此成功,但基于Transformer的架构和LLM依然难以处理规划和推理任务。之前已有研究证明LLM难以应对多步规划任务或高阶推理任务。为了提升Transformer的推理和规划性能,近些年研究社区也提出了一些方法。一种最常见且有效的方法是模拟人类的思考过程:先生成中间「思维」,然后再输出响应。比如思维链(CoT)提示法就是鼓励模型预测中间步骤,进行按步骤的「思考」。思维树(ToT)则使用了分支策略和评判方法,让

国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收

2月16日,OpenAISora的发布无疑标志着视频生成领域的一次重大突破。Sora基于DiffusionTransformer架构,和市面上大部分主流方法(由2DStableDiffusion扩展)并不相同。为什么Sora坚持使用 DiffusionTransformer,其中的原因从同时期发表在ICLR2024(VDT:General-purposeVideoDiffusionTransformersviaMaskModeling)的论文可以窥见一二。这项工作由中国人民大学研究团队主导,并与加州大学伯克利分校、香港大学等进行了合作,最早于2023年5月公开在arXiv网站。研究团队提出了基

打入AI底层!NUS尤洋团队用扩散模型构建神经网络参数,LeCun点赞

扩散模型,迎来了一项重大新应用——像Sora生成视频一样,给神经网络生成参数,直接打入了AI的底层!这就是新加坡国立大学尤洋教授团队联合UCB、MetaAI实验室等机构最新开源的研究成果。具体来说,研究团队提出了一种用于生成神经网络参数的扩散模型p(arameter)-diff。用它来生成网络参数,速度比直接训练最多提高44倍,而且表现毫不逊色。这一模型一经发布,就迅速在AI社区引发强烈讨论,圈内人士对此的惊叹,毫不亚于普通人看到Sora时的反应。甚至有人直接惊呼,这基本上相当于AI在创造新的AI了。就连AI巨头LeCun看了之后,也点赞了这一成果,表示这真的是个cuteidea。而实质上,p

用扩散模型生成网络参数,LeCun点赞尤洋团队新研究

如果你有被Sora生成的视频震撼到,那你就已经见识过扩散模型在视觉生成方面的巨大潜力。当然,扩散模型的潜力并不止步于此,它在许多其它不同领域也有着让人期待的应用前景,更多案例可参阅机器之心不久前的报道《爆火Sora背后的技术,一文综述扩散模型的最新发展方向》。近日,来自新加坡国立大学的尤洋团队、加州大学伯克利分校、MetaAIResearch的一项新研究找到了扩散模型的一个新应用方向:用来生成神经网络的模型参数!论文地址:https://arxiv.org/pdf/2402.13144.pdf项目地址:https://github.com/NUS-HPC-AI-Lab/Neural-Netwo

Amazon Generative AI | 基于 Amazon 扩散模型原理的代码实践之采样篇

以前通过论文介绍Amazon生成式AI和大语言模型(LLMs)的主要原理之外,在代码实践环节主要还是局限于是引入预训练模型、在预训练模型基础上做微调、使用API等等。很多开发人员觉得还不过瘾,希望内容可以更加深入。因此,本文将讲解基于扩散模型原理的代码实践,将尝试用代码完整从底层开始洞悉扩散模型(DiffusionModels)的工作原理,而不再仅仅止步于引入预训练模型或使用API完成工作。1、扩散模型系列内容概述基于扩散模型(DiffusionModels)的大模型,例如:StableDiffusion、Midjourney、DALL-E等能够仅通过提示词(Prompt)就能够生成图像。我们

[论文精读]Community-Aware Transformer for Autism Prediction in fMRI Connectome

论文网址:[2307.10181]Community-AwareTransformerforAutismPredictioninfMRIConnectome(arxiv.org)论文代码:GitHub-ubc-tea/Com-BrainTF:TheofficialPytorchimplementationofpaper"Community-AwareTransformerforAutismPredictioninfMRIConnectome"acceptedbyMICCAI2023英文是纯手打的!论文原文的summarizingandparaphrasing。可能会出现难以避免的拼写错误和语法