草庐IT

扩散Transformer

全部标签

本地电脑搭建 StreamDiffusion:用眼睛见证实时人工智能创意 利用交互式高速扩散技术彻底改变图像生成

介绍:生成式人工智能的出现开启了创造性可能性的新领域。DALL-E2和StableDiffusion等模型在通过简单的文本提示生成高质量图像方面表现出了前所未有的能力。然而,一个关键的限制仍然存在——缺乏实时交互性。当涉及Metaverse、视频游戏图形、直播和广播等应用程序所需的连续输入流时,现有的扩散模型往往会出现问题。事实证明,顺序处理管道不足以处理此类实时交互场景的高吞吐量需求。StreamDiffusion是一种开创性的管道解决方案,专为实现实时扩散功能和流畅的用户交互而设计。在本文中,我们将深入探讨推动这一突破的创新,这一突破有望彻底改变生成式人工智能。实时交互扩散的瓶颈扩散模型的

扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略

Text-to-image(T2I)扩散模型在生成高清晰度图像方面显示出了卓越的能力,这一成就得益于其在大规模图像-文本对上的预训练。这引发了一个自然的问题:扩散模型是否可以用于解决视觉感知任务? 近期,来自字节跳动和复旦大学的技术团队提出了一种简单而有效的方案:利用扩散模型处理视觉感知任务。论文地址:https://arxiv.org/abs/2312.14733开源项目:https://github.com/fudan-zvg/meta-prompts团队的关键洞察是引入可学习的元提示(metaprompts)到预训练的扩散模型中,以提取适合特定感知任务的特征。技术介绍 团队将text-t

《Span-Based Joint Entity and Relation Extraction with Transformer Pre-Training》阅读笔记

代码 原文地址 预备知识:1.什么是束搜索算法(beam search)?beam search是一种用于许多自然语言处理和语音识别模型的算法,作为最终决策层,用于在给定目标变量(如最大概率或下一个输出字符)的情况下选择最佳输出。 2.什么是条件随机场(ConditionalRandomField,CRF)?CRF是一类统计建模方法,通常应用于模式识别和机器学习,并用于结构化预测。分类器预测单个样本的标签时不考虑“邻近”样本,而CRF可以考虑上下文。 3.ELMo模型是如何工作的?与Glove和Word2Vec不同,ELMo使用包含该单词的完整句子来表示单词的嵌入。因此,ELMo嵌入能够捕获句

transformer概述和swin-transformer详解

目录1.transformer架构1.1输入部分实现1.2编码器部分实现1.2.1掩码张量1.2.2注意力机制1.2.3多头注意力机制1.2.4前馈全连接层1.2.5规范化层1.2.6子层连接层1.2.7编码器层1.2.8编码器1.3解码器部分实现1.3.1解码器层1.3.2解码器1.4输出部分实现2.swin-transformer1.transformer架构transformer的整体网络架构如下:其中具体分为:输入,输出,编码器,解码器输入:源文本嵌入层+位置编码      目标文本嵌入层+位置编码输出:线形层+softmax激活函数编码器:由N个编码器构成       每个编码器由两

AIGC笔记总结(二):扩散模型原理

💙个人主页:GoAI|💚公众号:GoAI的学习小屋|💛交流群:704932595|💜个人简介:掘金签约作者、百度飞桨PPDE、领航团团长、开源特训营导师、CSDN、阿里云社区人工智能领域博客专家、新星计划计算机视觉方向导师等,专注大数据与人工智能知识分享。💻文章目录《深度浅出AIGC(一):扩散模型简介》《深度浅出AIGC(二):扩散模型原理》(本篇)深度浅出AIGC(二):扩散模型原理💻本篇导读:本系列主要介绍AIGC方向文章,包括stablediffusion扩散模型介绍、文生图、图生视频等方向理论与基础实战,分享AIGC开源工具的使用,该系列适合方便小白学习,本篇为第一篇《深度浅出AIG

【AIGC】IP-Adapter:文本兼容图像提示适配器,用于文本到图像扩散模型

前言        IPAdapter能够通过图像给StableDiffusion模型以内容提示,让其生成参考该图像画风,可以免去Lora的训练,达到参考画风人物的生成效果。摘要        通过文本提示词生成的图像,往往需要设置复杂的提示词,通常设计提示词变得很复杂。文本提示可以由图像来替代。直接微调预训练模型也是一种行之有效的方法,但是需要消耗大量计算资源。并且存在模型兼容性问题。在本文中,我们介绍了IP-Adapter,这是一种有效且轻量级的适配器,用于实现预训练文本到图像扩散模型的图像提示功能。我们的IP适配器的关键设计是解耦的交叉注意力机制,将文本特征和图像特征的交叉注意力层分开。

ICLR 2022: Anomaly Transformer论文阅读笔记(2) 深度解析代码

AnomalyTransformer是一个由Transformer:AttentionIsAllYouNeed启发出的检测时间序列异常点的无监督学习算法。在这一篇我会深度解析论文算法以及代码的一一对应,让人更方便能读懂和使用源代码。阅读笔记前篇:ICLR2022:AnomalyTransformer论文阅读笔记+代码复现阅读前提你应该大致阅读了AnomalyTransformer论文本体(起码Introduction)你应该下载好了论文代码并安装好了环境。论文源码可以在github上获取:在https://github.com/thuml/Anomaly-Transformer处下载,或者直接

ICLR 2022: Anomaly Transformer论文阅读笔记(2) 深度解析代码

AnomalyTransformer是一个由Transformer:AttentionIsAllYouNeed启发出的检测时间序列异常点的无监督学习算法。在这一篇我会深度解析论文算法以及代码的一一对应,让人更方便能读懂和使用源代码。阅读笔记前篇:ICLR2022:AnomalyTransformer论文阅读笔记+代码复现阅读前提你应该大致阅读了AnomalyTransformer论文本体(起码Introduction)你应该下载好了论文代码并安装好了环境。论文源码可以在github上获取:在https://github.com/thuml/Anomaly-Transformer处下载,或者直接

Diffusion Map扩散映射

扩散映射是一种非线性降维的方法。Diffusionmap使用了diffusionprocess的方法,假设黄色数据点a为热源,它可以扩散到其他点,扩散是随机行走的过程,如果目标距离热源远,则扩散概率小,反之扩散概率大。diffusionprocess将空间距离转换为状态转移概率,从而确定随机行走的方向,确定细胞发育轨迹。算法分为确定细胞转移方向(Markov矩阵)和降维(Markov矩阵特征值分解降维)两块;如图所示,红色为目标细胞,在目标细胞周围有一些细胞,那么DiffusionMap首先计算这些细胞两两之间的距离,如果两个细胞距离较大,那么扩散概率就小,如果两个细胞距离较小,那么扩散概率就

Cross-Drone Transformer Network for Robust Single Object Tracking论文阅读笔记

Cross-DroneTransformerNetworkforRobustSingleObjectTracking论文阅读笔记Abstract无人机在各种应用中得到了广泛使用,例如航拍和军事安全,这得益于它们与固定摄像机相比的高机动性和广阔视野。多无人机追踪系统可以通过从不同视角收集互补的视频片段,为目标提供丰富的信息,特别是当目标在某些视角中被遮挡或消失时。然而,在多无人机视觉追踪中处理跨无人机信息交互和多无人机信息融合是具有挑战性的。最近,Transformer在自动建模视觉追踪的模板和搜索区域之间的相关性方面显示出显著的优势。为了利用其在多无人机追踪中的潜力,我们提出了一种新型的跨无人