扩散Transformer

【论文阅读笔记】Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation

1.介绍Swin-Unet:Unet-likePureTransformerforMedicalImageSegmentationSwin-Unet：用于医学图像分割的类Unet纯Transformer2022年发表在ComputerVision–ECCV2022WorkshopsPaperCode2.摘要在过去的几年里，卷积神经网络（CNN）在医学图像分析方面取得了里程碑式的成就。特别是基于U型结构和跳跃连接的深度神经网络，已经广泛应用于各种医学图像任务中。然而，尽管CNN取得了优异的性能，但由于卷积运算的局部性，它不能很好地学习全局和远程语义信息交互。在本文中，我们提出了Swin-Unet

从20亿数据中学习物理世界，基于Transformer的通用世界模型成功挑战视频生成

建立会做视频的世界模型，也能通过Transformer来实现了！来自清华和极佳科技的研究人员联手，推出了全新的视频生成通用世界模型——WorldDreamer。它可以完成自然场景和自动驾驶场景多种视频生成任务，例如文生视频、图生视频、视频编辑、动作序列生视频等。据团队介绍，通过预测Token的方式来建立通用场景世界模型，WorldDreamer是业界首个。它把视频生成转换为一个序列预测任务，可以对物理世界的变化和运动规律进行充分地学习。可视化实验已经证明，WorldDreamer已经深刻理解了通用世界的动态变化规律。那么，它都能完成哪些视频任务，效果如何呢？支持多种视频任务图像生成视频（Ima

【扩散模型】12、Stable Diffusion | 使用 Diffusers 库来看看 Stable Diffusion 的结构

文章目录一、什么是StableDiffusion二、Diffusers库三、微调、引导、条件生成3.1微调3.2引导3.3条件生成四、StableDiffusion4.1以文本为条件生成4.2无分类器的引导4.3其它类型的条件生成：超分辨率、图像修补、深度图到图像的转换4.4使用DreamBooth微调五、使用Diffusers库来窥探StableDiffusion内部5.1StableDiffusionPipeline5.2文本到图像5.3图像到图像5.4In-painting5.5Depth2Image5.6ControlNet5.6.1ControlNet与CannyEdge5.6.2C

EfficientViT: Memory Efficient Vision Transformer withCascaded Group Attention论文阅读

高效的记忆视觉transformer与级联的群体注意摘要。视觉transformer由于其高模型能力而取得了巨大的成功。然而，它们卓越的性能伴随着沉重的计算成本，这使得它们不适合实时应用。在这篇论文中，我们提出了一个高速视觉transformer家族，名为EfficientViT。我们发现现有的transformer模型的速度通常受到内存低效操作的限制，特别是在MHSA中的张量重塑和单元函数。因此，我们设计了一种具有三明治布局的新构建块，即在高效FFN层之间使用单个内存绑定的MHSA，从而提高了内存效率，同时增强了信道通信。此外，我们发现注意图在头部之间具有很高的相似性，从而导致计算冗余。为了

推翻Transformer奠基之作疑被拒收，ICLR评审遭质疑！网友大呼黑幕，LeCun自曝类似经历

去年12月，CMU和普林斯顿的2位研究者发布了Mamba架构，瞬间引起AI社区震动！结果，这篇被众人看好有望「颠覆Transformer霸权」的论文，今天竟曝出疑似被顶会拒收？！今早，康奈尔大学副教授SashaRush最先发现，这篇有望成为奠基之作的论文似乎要被ICLR2024拒之门外。并表示，「说实话，我不理解。如果它被拒绝了，我们还有什么机会」。在OpenReview上可以看到，四位审稿人给出的分数是3、6、8、8。虽然这个分数未必会让论文被拒收，但是3分这样的低分，也是很离谱了。牛文得3分，LeCun都出来喊冤这篇由CMU、普林斯顿大学的2位研究人员发表的论文，提出了一种全新的架构Mam

MBTI+大模型=甜甜的恋爱？美国新年AI裁员潮；中国大模型人才分布图；20分钟览尽NLP百年；Transformer新手入门教程 | ShowMeAI日报

👀日报&周刊合集|🎡生产力工具与行业应用大全|🧡点赞关注评论拜托啦！🉑GenAI是美国「2024年裁员潮」罪魁祸首吗？来看几组数据https://www.trueup.io/layoffs补充一份背景：👆上方链接是TrueUp网站关于科技行业裁员、招聘、股票等信息的汇总页面，其中「TheTechLayoffTracker」实时密切追踪着全球科技公司的裁员信息，覆盖大型科技公司、科技独角兽和初创公司等最近美国科技公司出现了新一轮的「裁员潮」。据TrueUp汇总，2024年到目前为止，科技公司的裁员信息已经有92条之多，影响人数多达17,191(平均每天裁员1,011)。2023年这些数据是，科技

2023年最具影响力的 10 篇AI论文（Llama2、SAM、LLM、 Pythia、QLoRA、BloombergGPT、DPO、Mistral 7B、Orca 2、transformer）

2023一年又过去，这一年，AI圈子以一种“狂飙突进”的速度飞速发展，哪怕在这个领域深耕多年的学者们也开始感叹“从没有见过哪个领域在哪一年如同AI领域在2023年这样如此飞速的发展与不断的进化”，毫无疑问，这一年AI，尤其是大模型的爆发将会深刻影响未来我们生活的方方面面。抱着年终总结，也是对过去的2023这一里程碑式的一年回顾与展望的态度，来自AheadAI的SebastianRaschka博士为我们带来了2023年最值得大家关注，也是最有影响力的十篇AI论文，这里我们就和大家一起，用这十篇工作再次为2023年写下一段注脚（十篇论文不分先后）一、Pythia—大模型该如何训练？来自

扩散模型更懂复杂提示词！Pika北大斯坦福开源新框架，利用LLM提升理解力

Pika北大斯坦福联手，开源最新文本-图像生成/编辑框架！无需额外训练，即可让扩散模型拥有更强提示词理解能力。面对超长、超复杂提示词，准确性更高、细节把控更强，而且生成图片更加自然。效果超越最强图像生成模型Dall·E3和SDXL。比如要求图片左右冰火两重天，左边有冰山、右边有火山。SDXL完全没有符合提示词要求，Dall·E3没有生成出来火山这一细节。还能通过提示词对生成图像二次编辑。这就是文本-图像生成/编辑框架RPG（Recaption,PlanandGenerate），已经在网上引起热议。它由北大、斯坦福、Pika联合开发。作者包括北大计算机学院崔斌教授、Pika联合创始人兼CTOCh

【论文笔记】Learned Fusion: 3D Object Detection using Calibration-Free Transformer Feature Fusion

原文链接：https://arxiv.org/abs/2312.090821.引言目前的3D目标检测一来传感器的校准信息。这种情况下，校准信息需要及其精确，但在产品尺度上，获取高质量校准信息是很困难的（需要逐传感器校准，且运行过程中可能会变化）。本文基于Transformer，提出无需校准信息的传感器融合方法。3.方法从基于Transformer的方法中直接移除校准信息会导致训练困难。3.1TransFuseDet本文的模型包含融合编码器、上采样和任务头。使用两个ResNet分别编码激光雷达和相机的特征，然后在不同特征尺度上使用Transformer融合，类似TransFuser。但不同的是，

AAAI 2024｜ETH轻量化Transformer最新研究，浅层MLP完全替换注意力模块提升性能

论文题目：RethinkingAttention:ExploringShallowFeed-ForwardNeuralNetworksasanAlternativetoAttentionLayersinTransformers论文链接： https://arxiv.org/abs/2311.10642代码仓库： GitHub-vulus98/Rethinking-attention:Myimplementationoftheoriginaltransformermodel(Vaswanietal.).I'veadditionallyincludedtheplayground.pyfilefor