扩散Transformer

Swin Transformer详解

继vit之后，进一步证明了Transformer可以在视觉领域广泛应用，并且可以应用到半监督以及自监督中。 SwinTransformer：HierarchicalVisionTransformerUsingShiftedWindowsSwinTransformer：用了移动窗口的层级式的Transformer，Swin来自ShiftedWindows。他可以像CNN一样做到层级式提取，使提取到的特征有多尺度的概念摘要Vit出现后虽然让大家看到了Transformer在视觉领域的潜力，但并不确定Transformer可以做掉所有视觉任务。SwinTransformer可以作为一个通用的骨干网络

速度暴涨1000倍！扩散模型预测材料“炼金”过程，体系越复杂加速度越大

用扩散模型预测化学反应，速度直接暴涨1000倍！原本需要用计算机硬算几小时甚至一天，现在单个GPU用6秒钟就能搞定。这是MIT和康奈尔大学联合搞出来的一项新研究，用扩散模型来预测化学反应中最关键的过渡态结构，不仅计算速度提升1000倍，结果也竟然意想不到得准确，相关研究工作发表在NatureComputationalScience上：其中，麻省理工学院的段辰儒博士是第一加通讯作者。此外，康奈尔大学博士生杜沅岂、麻省理工学院博士生贾皓钧以及麻省理工学院HeatherKulik教授为该论文的共同作者，目前研究已经被MITNews报道。要知道，预测反应中的过渡态结构远非想象中简单——由于能量较高，它

扩散模型的发展过程梳理多个扩散模型理论知识总结/DDPM去噪扩散概率/IDDPM/DDIM隐式去噪/ADM/SMLD分数扩散/CGD条件扩散/Stable Diffusion稳定扩散/LM

1.最近发现自己光探索SDWebUI功能搞了快两个月，但是没有理论基础后面科研路有点难走，所以在师兄的建议下，开始看b站视频学习一下扩散模型，好的一看一个不吱声，一周过去了写个博客总结一下吧，理理思路。不保证下面的内容完全正确，只能说是一个菜鸟的思考和理解，有大佬有正确的理解非常欢迎评论告知，不要骂我不要骂我。2.这里推荐up主，deep_thoughts投稿视频-deep_thoughts视频分享-哔哩哔哩视频(bilibili.com)我觉得对于学习而言只有学到了和没学到的差别，以前可能更多的是直接阅读文献，但如果有这样好的学者录个视频带你精读论文是比你自己埋头苦读五百年好太多太多了，学习

Transformer作者：指令型智能体的构建之法

来源| TheRobotBrainsPodcastOneFlow编译翻译｜徐佳渝、贾川、杨婷2017年，Google发布的《AttentionIsAllYouNeed》论文提出了Transformer架构，这成为过去十年神经网络领域最具影响力的技术创新之一，并被广泛应用于NLP、计算机视觉、蛋白折叠等诸多领域。更重要的是，它成为后来包括ChatGPT在内的诸多大模型的基石。不过，Transformer的八位作者如今都离开了Google。其中，LukaszKaiser去了OpenAI，LlionJones近期也离职创业，而其他6位作者分别参与创办了Adept、Cohere、Character.a

MAMBA介绍：一种新的可能超过Transformer的AI架构

有人说，“理解了人类的语言，就理解了世界”。一直以来，人工智能领域的学者和工程师们都试图让机器学习人类的语言和说话方式，但进展始终不大。因为人类的语言太复杂，太多样，而组成它背后的机制，往往又充满着不可名状的规律。过去人们在自然语言处理中多采用RNN循环神经网络，它十分类似于人类逻辑上对语言的理解，即：强调上下文顺序、前后文逻辑关系。但是这种顺序方式让RNN无法实现并行计算，也就是说，它的速度十分缓慢，而规模也很难扩大。直到2017年6月12日，一篇名为“AttentionisAllYouNeed”的论文被提交到预印论文平台arXiv上。一切从此改变。Transformer的提出直接导致了现在

从滑动窗口到YOLO、Transformer：目标检测的技术革新

本文全面回顾了目标检测技术的演进历程，从早期的滑动窗口和特征提取方法到深度学习的兴起，再到YOLO系列和Transformer的创新应用。通过对各阶段技术的深入分析，展现了计算机视觉领域的发展趋势和未来潜力。关注TechLead，分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验，同济本复旦硕，复旦机器人智能实验室成员，阿里云认证的资深架构师，项目管理专业人士，上亿营收AI产品研发负责人。一、早期方法：滑动窗口和特征提取在深度学习方法主导目标检测之前，滑动窗口和特征提取技术在这一领域中发挥了关键作用。通过理解这些技术的基本原理和实现方式，我们可以更好地把握目标检

类ChatGPT逐行代码解读(1/2)：从零起步实现Transformer、ChatGLM-6B

前言最近一直在做类ChatGPT项目的部署微调，关注比较多的是两个：一个LLaMA，一个ChatGLM，会发现有不少模型是基于这两个模型去做微调的，说到微调，那具体怎么微调呢，因此又详细了解了一下微调代码，发现微调LLM时一般都会用到Huggingface实现的Transformers库的Trainer类从而发现，如果大家想从零复现ChatGPT，便得从实现Transformer开始，因此便开启了本文：如何从零起步实现Transformer、ChatGLM(至于LLaMA已在之前的博客里解读过)，主要分为两个大部分按照transformer的每一步的原理逐步逐行从零实现，先编码器后解码器，特别

【论文解读】Edit-DiffNeRF：使用2D-扩散模型编辑3D-NeRF

来源：投稿作者：橡皮编辑：学姐论文链接：https://arxiv.org/abs/2306.09551摘要最近的研究表明，将预训练的扩散模型与神经辐射场（NeRF）相结合，是一种很有前途的文本到3D的生成方法。简单地将NeRF与扩散模型相结合会导致跨视图不一致和风格化视图合成的退化。为了应对这一挑战，我们提出了Edit-DiffNeRF框架，它由一个冻结的扩散模型、一个用于编辑扩散模型潜在语义空间的delta模块和一个NeRF组成。我们的方法不是为每个场景训练整个扩散模型，而是通过delta模块在冻结的预训练扩散模型中编辑潜在语义空间。对标准扩散框架的这一根本性改变使我们能够对渲染视图进行细

将Transformer用于扩散模型，AI 生成视频达到照片级真实感

近日，一项视频生成研究收获了大量赞誉，甚至被一位X网友评价为「好莱坞的终结」。真的有这么好吗？我们先看下效果：很明显，这些视频不仅几乎看不到伪影，而且还非常连贯、细节满满，甚至似乎就算真的在电影大片中加上几帧，也不会明显违和。这些视频的作者是来自斯坦福大学、谷歌、佐治亚理工学院的研究者提出的WindowAttentionLatentTransformer，即窗口注意力隐Transformer，简称 W.A.L.T。该方法成功地将Transformer架构整合到了隐视频扩散模型中。斯坦福大学的李飞飞教授也是该论文的作者之一。项目网站：https://walt-video-diffusion.gi

李飞飞谷歌破局之作！用Transformer生成逼真视频，下一个Pika来了？

视频大数据时代，真的来了！刚刚，李飞飞的斯坦福团队同谷歌合作，推出了用于生成逼真视频的扩散模型W.A.L.T。这是一个在共享潜在空间中训练图像和视频生成的，基于Transformer的扩散模型。论文：https://walt-video-diffusion.github.io/assets/W.A.L.T.pdf英伟达高级科学家JimFan转发评论道：2022年是影像之年，2023是声波之年，而2024，是视频之年！首先，研究人员使用因果编码器在共享潜在空间中压缩图像和视频。其次，为了提高记忆和训练效率，研究人员使用基于窗口注意的变压器架构来进行潜在空间中的联合空间和时间生成建模。研究人员的模