草庐IT

扩散Transformer

全部标签

【论文阅读笔记】Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation

1.介绍Swin-Unet:Unet-likePureTransformerforMedicalImageSegmentationSwin-Unet:用于医学图像分割的类Unet纯Transformer2022年发表在ComputerVision–ECCV2022WorkshopsPaperCode2.摘要在过去的几年里,卷积神经网络(CNN)在医学图像分析方面取得了里程碑式的成就。特别是基于U型结构和跳跃连接的深度神经网络,已经广泛应用于各种医学图像任务中。然而,尽管CNN取得了优异的性能,但由于卷积运算的局部性,它不能很好地学习全局和远程语义信息交互。在本文中,我们提出了Swin-Unet

从20亿数据中学习物理世界,基于Transformer的通用世界模型成功挑战视频生成

建立会做视频的世界模型,也能通过Transformer来实现了!来自清华和极佳科技的研究人员联手,推出了全新的视频生成通用世界模型——WorldDreamer。它可以完成自然场景和自动驾驶场景多种视频生成任务,例如文生视频、图生视频、视频编辑、动作序列生视频等。据团队介绍,通过预测Token的方式来建立通用场景世界模型,WorldDreamer是业界首个。它把视频生成转换为一个序列预测任务,可以对物理世界的变化和运动规律进行充分地学习。可视化实验已经证明,WorldDreamer已经深刻理解了通用世界的动态变化规律。那么,它都能完成哪些视频任务,效果如何呢?支持多种视频任务图像生成视频(Ima

【扩散模型】12、Stable Diffusion | 使用 Diffusers 库来看看 Stable Diffusion 的结构

文章目录一、什么是StableDiffusion二、Diffusers库三、微调、引导、条件生成3.1微调3.2引导3.3条件生成四、StableDiffusion4.1以文本为条件生成4.2无分类器的引导4.3其它类型的条件生成:超分辨率、图像修补、深度图到图像的转换4.4使用DreamBooth微调五、使用Diffusers库来窥探StableDiffusion内部5.1StableDiffusionPipeline5.2文本到图像5.3图像到图像5.4In-painting5.5Depth2Image5.6ControlNet5.6.1ControlNet与CannyEdge5.6.2C

EfficientViT: Memory Efficient Vision Transformer withCascaded Group Attention论文阅读

高效的记忆视觉transformer与级联的群体注意摘要。视觉transformer由于其高模型能力而取得了巨大的成功。然而,它们卓越的性能伴随着沉重的计算成本,这使得它们不适合实时应用。在这篇论文中,我们提出了一个高速视觉transformer家族,名为EfficientViT。我们发现现有的transformer模型的速度通常受到内存低效操作的限制,特别是在MHSA中的张量重塑和单元函数。因此,我们设计了一种具有三明治布局的新构建块,即在高效FFN层之间使用单个内存绑定的MHSA,从而提高了内存效率,同时增强了信道通信。此外,我们发现注意图在头部之间具有很高的相似性,从而导致计算冗余。为了

推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历

去年12月,CMU和普林斯顿的2位研究者发布了Mamba架构,瞬间引起AI社区震动!结果,这篇被众人看好有望「颠覆Transformer霸权」的论文,今天竟曝出疑似被顶会拒收?!今早,康奈尔大学副教授SashaRush最先发现,这篇有望成为奠基之作的论文似乎要被ICLR2024拒之门外。并表示,「说实话,我不理解。如果它被拒绝了,我们还有什么机会」。在OpenReview上可以看到,四位审稿人给出的分数是3、6、8、8。虽然这个分数未必会让论文被拒收,但是3分这样的低分,也是很离谱了。牛文得3分,LeCun都出来喊冤这篇由CMU、普林斯顿大学的2位研究人员发表的论文,提出了一种全新的架构Mam

MBTI+大模型=甜甜的恋爱?美国新年AI裁员潮;中国大模型人才分布图;20分钟览尽NLP百年;Transformer新手入门教程 | ShowMeAI日报

👀日报&周刊合集|🎡生产力工具与行业应用大全|🧡点赞关注评论拜托啦!🉑GenAI是美国「2024年裁员潮」罪魁祸首吗?来看几组数据https://www.trueup.io/layoffs补充一份背景:👆上方链接是TrueUp网站关于科技行业裁员、招聘、股票等信息的汇总页面,其中「TheTechLayoffTracker」实时密切追踪着全球科技公司的裁员信息,覆盖大型科技公司、科技独角兽和初创公司等最近美国科技公司出现了新一轮的「裁员潮」。据TrueUp汇总,2024年到目前为止,科技公司的裁员信息已经有92条之多,影响人数多达17,191(平均每天裁员1,011)。2023年这些数据是,科技

2023年最具影响力的 10 篇AI论文(Llama2、SAM、LLM、 Pythia、QLoRA、BloombergGPT、DPO、Mistral 7B、Orca 2、transformer)

  2023一年又过去,这一年,AI圈子以一种“狂飙突进”的速度飞速发展,哪怕在这个领域深耕多年的学者们也开始感叹“从没有见过哪个领域在哪一年如同AI领域在2023年这样如此飞速的发展与不断的进化”,毫无疑问,这一年AI,尤其是大模型的爆发将会深刻影响未来我们生活的方方面面。  抱着年终总结,也是对过去的2023这一里程碑式的一年回顾与展望的态度,来自AheadAI的SebastianRaschka博士为我们带来了2023年最值得大家关注,也是最有影响力的十篇AI论文,这里我们就和大家一起,用这十篇工作再次为2023年写下一段注脚(十篇论文不分先后)一、Pythia—大模型该如何训练?  来自

扩散模型更懂复杂提示词!Pika北大斯坦福开源新框架,利用LLM提升理解力

Pika北大斯坦福联手,开源最新文本-图像生成/编辑框架!无需额外训练,即可让扩散模型拥有更强提示词理解能力。面对超长、超复杂提示词,准确性更高、细节把控更强,而且生成图片更加自然。效果超越最强图像生成模型Dall·E3和SDXL。比如要求图片左右冰火两重天,左边有冰山、右边有火山。SDXL完全没有符合提示词要求,Dall·E3没有生成出来火山这一细节。还能通过提示词对生成图像二次编辑。这就是文本-图像生成/编辑框架RPG(Recaption,PlanandGenerate),已经在网上引起热议。它由北大、斯坦福、Pika联合开发。作者包括北大计算机学院崔斌教授、Pika联合创始人兼CTOCh

【论文笔记】Learned Fusion: 3D Object Detection using Calibration-Free Transformer Feature Fusion

原文链接:https://arxiv.org/abs/2312.090821.引言目前的3D目标检测一来传感器的校准信息。这种情况下,校准信息需要及其精确,但在产品尺度上,获取高质量校准信息是很困难的(需要逐传感器校准,且运行过程中可能会变化)。本文基于Transformer,提出无需校准信息的传感器融合方法。3.方法从基于Transformer的方法中直接移除校准信息会导致训练困难。3.1TransFuseDet本文的模型包含融合编码器、上采样和任务头。使用两个ResNet分别编码激光雷达和相机的特征,然后在不同特征尺度上使用Transformer融合,类似TransFuser。但不同的是,

AAAI 2024|ETH轻量化Transformer最新研究,浅层MLP完全替换注意力模块提升性能

论文题目:RethinkingAttention:ExploringShallowFeed-ForwardNeuralNetworksasanAlternativetoAttentionLayersinTransformers论文链接: https://arxiv.org/abs/2311.10642代码仓库: GitHub-vulus98/Rethinking-attention:Myimplementationoftheoriginaltransformermodel(Vaswanietal.).I'veadditionallyincludedtheplayground.pyfilefor