草庐IT

扩散Transformer

全部标签

从CNN到Transformer:基于PyTorch的遥感影像、无人机影像的地物分类、目标检测、语义分割和点云分类

我国高分辨率对地观测系统重大专项已全面启动,高空间、高光谱、高时间分辨率和宽地面覆盖于一体的全球天空地一体化立体对地观测网逐步形成,将成为保障国家安全的基础性和战略性资源。随着小卫星星座的普及,对地观测已具备多次以上的全球覆盖能力,遥感影像也不断被更深入的应用于矿产勘探、精准农业、城市规划、林业测量、军事目标识别和灾害评估。未来10年全球每天获取的观测数据将超过10PB,遥感大数据时代已然来临。点击查看原文链接https://mp.weixin.qq.com/s?__biz=Mzg2NDYxNjMyNA==&mid=2247533277&idx=5&sn=ed2dfba5de2bfa14805

矩阵模拟!Transformer大模型3D可视化,GPT-3、Nano-GPT每一层清晰可见

「矩阵模拟」的世界或许真的存在。模拟人类神经元,不断进化的Transformer模型,一直以来都深不可测。许多科学家都试着打开这个黑盒,看看究竟是如何工作的。而现在,大模型的矩阵世界,真的被打开了!一位软件工程师BrendanBycroft制作了一个「大模型工作原理3D可视化」网站霸榜HN,效果非常震撼,让你秒懂LLM工作原理。图片1750亿参数的GPT-3,模型层足足有8列,密密麻麻没遍布了整个屏幕。图片GPT-2模型不同参数版本的架构可视化,差异巨大。如下是有150亿参数GPT-2(XL),以及有1.24亿参数GPT-2(Small)。图片图片这个3D模型可视化还展示了,大模型生成内容的每

手机上0.2秒出图、当前速度之最,谷歌打造超快扩散模型MobileDiffusion

在手机等移动端侧运行StableDiffusion等文生图生成式AI大模型已经成为业界追逐的热点之一,其中生成速度是主要的制约因素。近日,来自谷歌的一篇论文「MobileDiffusion:SubsecondText-to-ImageGenerationonMobileDevices」,提出了手机端最快文生图,在iPhone15 Pro上只要0.2秒。论文出自UFOGen同一团队,在打造超小扩散模型的同时,采用当前大火的DiffusionGAN技术路线做采样加速。论文地址:https://arxiv.org/abs/2311.16567下面是MobileDiffusion一步生成的结果。那么,

AI视觉字谜爆火!梦露转180°秒变爱因斯坦,英伟达高级AI科学家:近期最酷的扩散模型

AI画的玛丽莲·梦露,倒转180°后,竟然变成了爱因斯坦?!这是最近在社交媒体上爆火的扩散模型视错觉画,随便给AI两组不同的提示词,它都能给你画出来!哪怕是截然不同的对象也可以,例如一位男子,经过反色处理,就神奇地转变成一名女子:就连单词也能被翻转出新效果,happy和holiday只在一旋转间:原来,这是来自密歇根大学的一项“视觉字谜”新研究,论文一发出就在HackerNews上爆火,热度飙至近800。英伟达高级AI科学家JimFan赞叹称:这是我近期见到最酷的扩散模型!还有网友感叹称:这让我想到了从事分形压缩工作的那段经历。我一直认为它是纯粹的艺术。要知道,创作一幅经过旋转、反色或变形后呈

Transformer算法解读(self-Attention/位置编码/多头注意力/掩码机制/QKV/Transformer堆叠/encoder/decoder)

本文主要从工程应用角度解读Transformer,如果需要从学术或者更加具体的了解Transformer,请参考这篇文章。目录1自然语言处理1.1RNN1.2Transformer1.3传统的word2vec2Attention 2.1Attention是什么意思2.2self-Attention是什么2.3self-attention如何计算?2.3.1如何计算关系2.3.2QKV向量2.3.3计算2.4多头注意力机制3位置信息4堆叠多层5decoder6最终输出结果7整体梳理1自然语言处理1.1RNN        RNN系列算法包括GUR、LSTM等变体,主体部分是一样的,内部结构不同。

【论文笔记】OpenAI宫斗背后:发现了可能优于小鸡毛表现的机器人,AGI的希望 Q* search and Q transformer(A star search with Q-Learning)

前言    最近OpenAI的宫斗剧上演的精妙绝伦,简直就是《硅谷》+《继承》,强烈推荐这两部剧集。AIGC的群里都在说Q*是揭示AI接近AGI的一篇论文,那就费点时间拨开云雾吧。为了方便大众更好地理解Q*,本人在快速浏览过论文后首先得出此结论公式:        Q*= (1992年的Q-learning+1968年的Astar算法)*DeepTransformerLearning    本篇文章解读两篇论文。强烈建议延伸阅读第二篇文章的视频:Q-TransformerQ-Transformer简介之机器人如何实现自主Q学习的动画1、第一篇介绍Q*search论文全称是:A*SEARCHWI

AIGC原理:扩散模型diffusion综述一:面向视觉计算的扩散模型研究进展

论文地址:StateoftheArtonDiffusionModelsforVisualComputing👉贴一幅SGM(Score-basedGenerativeModel)的原因是宋飏博士将他2019年提出的SMLD模型和2020年JonathanHo提出的DDPM采用SDE进行一统这两大极为相似的生成式模型。殊途同归,基于概率的扩散模型DDPM和基于分数的扩散模型SMLD都是通过利用Unet训练一个通过不同时间步控制的不同噪声图片的噪声预测器、分数预测器,最终通过DDPM的采样公式或者退火的郎之万动力学采样公式进行生成图片。🔥摘要  由于生成式AI的出现,计算机视觉领域正在迅速发展,它为

[论文阅读]Ghost-free High Dynamic Range Imaging with Context-aware Transformer

Ghost-freeHDRIwithContext-awareTransformer背景介绍已有算法本文算法实验对比背景介绍高动态范围成像(HDR)是一种图像技术,它能够捕捉到比传统图像更广泛的亮度范围。1997年,PaulDebevec在他的论文《RecoveringHighDynamicRangeRadianceMapsfromPhotographs》中提出了HDR的概念。论文里提出可以通过对同一个场景进行不同曝光时间的拍摄,然后用这些低动态范围(LDR)图像合成一张高动态范围(HDR)图像。这样做可以捕捉到从暗部的阴影到亮部的高光,或者说是高反光的更大动态范围的场景。HDR技术主要应用于

LATR:3D Lane Detection from Monocular Images with Transformer

参考代码:LATR动机与主要工作:之前的3D车道线检测算法使用诸如IPM投影、3Danchor加NMS后处理等操作处理车道线检测,但这些操作或多或少会存在一些负面效应。IPM投影对深度估计和相机内外参数精度有要求,anchor的方式需要一些如NMS的后处理辅助。这篇文章主要的贡献有两点:1)针对车道线的特性基于DETR目标检测算法提出了一种基于landlinequery的检测方法,为了使得query的初始化更合理借鉴了SparseInst方法从2D图像域中用不同实例来初始化query,并且建立车道线query的粒度不是车道线级别而是具体到了车道线上的点。2)用图像特征作为key和val是较难去

【华为OD机试真题 C++ Java Python】68、矩阵扩散 | 机试真题+思路参考+代码解析

文章目录一、题目🎃题目描述🎃输入输出🎃样例1二、代码与思路参考🎈C++语言思路🎉C++代码🎈Java语言思路🎉Java代码🎈Python语言思路🎉Python代码作者:KJ.JK🍂个人博客首页:KJ.JK 🍂专栏介绍:定期更新华为OD各个时间阶段的机试真题,每日定时更新,本专栏