草庐IT

扩散Transformer

全部标签

论文笔记:FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting

2022ICML1Intro长时间序列问题是一个研究很广泛的问题RNN以及变体会遇到梯度消失/梯度爆炸,这会在很大程度上限制他们的表现Transformer的方法会导致很高的计算复杂度,以及很大的内存消耗,这也会使得在长时间序列上使用Transformer很吃力近来有方法优化Transformer,使其计算复杂度降低但他们大多的思路是少取一些QK对,这就可能导致信息的丢失,进而影响预测的精准度有与此同时,使用Transformer的方法,会在一定程度上难以捕获时间序列的整体特征/分布 比如上图,不难发现预测的结果和实际值,二者的分布有着一定的差距这可能由于Transformer使用的是poin

英特尔研究院发布全新 AI 扩散模型,可根据文本提示生成 360 度全景图

6月21日消息,英特尔研究院今日宣布与BlockadeLabs合作发布LDM3D(LatentDiffusionModelfor3D)模型,这一全新的扩散模型使用生成式AI创建3D视觉内容。据介绍,LDM3D是业界领先的利用扩散过程(diffusionprocess)生成深度图(depthmap)的模型,进而生成逼真的、沉浸式的360度全景图。LDM3D有望革新内容创作、元宇宙应用和数字体验,改变包括娱乐、游戏、建筑和设计在内的许多行业。英特尔表示,LDM3D是在LAION-400M数据集包含一万个样本的子集上训练而成的。LAION-400M是一个大型图文数据集,包含超过4亿个图文对。对训练语

YOLOv7改进主干ViT系列:全网首发最新 MobileViTv3 系列最强改进版本(三)|轻量化Transformer视觉转换器,简单有效地融合了本地全局和输入特征,高效涨点

?该教程为改进进阶指南,属于《芒果书》?系列,包含大量的原创首发改进方式,所有文章都是全网首发原创改进内容?,本篇是MobileViT系列三个版本中的第三版论文结合YOLOv7改进?本篇文章基于YOLOv7、YOLOv7-tiny等网络:首发最新结合MobileViTv3系列最强版本!:轻量化Transformer视觉转换器,简单有效地融合了本地全局和输入特征,本文将结合YOLO系列应用。重点:?有不少同学已经反应专栏的教程提供的网络结构在数据集上有效涨点!!!重点:?进阶专栏内容持续更新中?☁️?️,订阅了该专栏的读者务必·私信博主·加·全新创新点进阶交流群·群内不定时会发一些其他未公开的T

YOLOv7改进主干ViT系列:全网首发最新 MobileViTv3 系列最强改进版本(三)|轻量化Transformer视觉转换器,简单有效地融合了本地全局和输入特征,高效涨点

?该教程为改进进阶指南,属于《芒果书》?系列,包含大量的原创首发改进方式,所有文章都是全网首发原创改进内容?,本篇是MobileViT系列三个版本中的第三版论文结合YOLOv7改进?本篇文章基于YOLOv7、YOLOv7-tiny等网络:首发最新结合MobileViTv3系列最强版本!:轻量化Transformer视觉转换器,简单有效地融合了本地全局和输入特征,本文将结合YOLO系列应用。重点:?有不少同学已经反应专栏的教程提供的网络结构在数据集上有效涨点!!!重点:?进阶专栏内容持续更新中?☁️?️,订阅了该专栏的读者务必·私信博主·加·全新创新点进阶交流群·群内不定时会发一些其他未公开的T

TMI2022 | nnFormer:利用交织3D卷积和Transformer进行医学分割的新方案

TMI2022|nnFormer:利用交织3D卷积和Transformer进行医学分割的新方案0AbstractTransformer作为自然语言处理的首选模型,在医学影像界引起了很少的关注。考虑到利用长期依赖关系的能力,Transformer有望帮助非典型卷积神经网络克服其空间归纳偏差的固有缺点。然而,大多数最近提出的基于Transformer的分割方法只是将Transformer作为辅助模块来帮助将全局上下文编码为卷积表示。为了解决这个问题,我们引入了nnFormer(not-anotherTransformer),这是一种用于3D医学图像分割的3DTransformer。nnFormer

AAAI 2023|模拟人脑场景感知过程,套娃Transformer讲故事能力更上一层楼

原文链接:https://www.techbeat.net/article-info?id=4467作者:seven_视频字幕生成目前已成为工业界AI创作领域非常火热的研究话题,这一技术可以应用在短视频的内容解析和讲解中,AI讲故事的技术已经越来越成熟。而在学术界,研究者们更加倾向于探索字幕生成的评价标准以及可扩展性。论文链接:https://arxiv.org/abs/2211.15103代码链接:https://github.com/UARK-AICV/VLTinT本文介绍一篇刚刚被人工智能领域顶级会议AAAI2023录用的文章,该文不再局限于传统的短视频字幕生成任务,而是在此基础上更进一

AAAI 2023|模拟人脑场景感知过程,套娃Transformer讲故事能力更上一层楼

原文链接:https://www.techbeat.net/article-info?id=4467作者:seven_视频字幕生成目前已成为工业界AI创作领域非常火热的研究话题,这一技术可以应用在短视频的内容解析和讲解中,AI讲故事的技术已经越来越成熟。而在学术界,研究者们更加倾向于探索字幕生成的评价标准以及可扩展性。论文链接:https://arxiv.org/abs/2211.15103代码链接:https://github.com/UARK-AICV/VLTinT本文介绍一篇刚刚被人工智能领域顶级会议AAAI2023录用的文章,该文不再局限于传统的短视频字幕生成任务,而是在此基础上更进一

基于扩散模型的音频驱动说话人生成,云从&上交数字人研究入选ICASSP 2023

近日,国际语音及信号处理领域顶级会议ICASSP2023在希腊成功举办。大会邀请了全球范围内各大研究机构、专家学者以及等谷歌、苹果华为、MetaAI、等知名企业近4000人共襄盛会,探讨技术、产业发展趋势,交流最新成果。云从科技与上海交通大学联合研究团队的《基于扩散模型的音频驱动说话人生成》成功入选会议论文,并于大会进行现场宣讲,获得多方高度关注。论文地址:https://ieeexplore.ieee.org/document/10094937/ICASSP(InternationalConferenceonAcoustics,SpeechandSignalProcessing)是语音、声学

java+openlayer实现大气污染扩散模拟反演

一、模拟参数及效果  二、应用背景大气污染是当今社会面临的一个重要问题。随着工业化和城市化的进程,大气污染问题变得越来越严重。为了更好地应对这个问题,许多科学家和研究人员开始探索大气污染扩散反演技术。大气污染扩散反演技术是一种通过数学模型和观测数据分析,来推算出大气污染物的来源和扩散规律的方法。这种技术可以帮助我们更准确地评估大气污染物的排放量,预测污染物传输路径和污染物扩散范围,进而制定更有效的环境保护措施。大气污染扩散反演技术的研究需要大量的观测数据和复杂的数学模型。目前,许多国家和地区都已经开始投入大量的资金和精力来研究这个问题。随着技术的不断提高和发展,大气污染扩散反演技术将会在未来的

文字转图片生成系统-Stable diffusion稳定扩散模型

二话不说先上效果图:(附带代码和模型资源文件) 让它画一个超级汽车在海边。。 一、文字描述生成图片是个啥?近期百度推出了文言一心,一个能回答问题,能根据文字描述绘制图片的服务,前期可能不太完善出现了一些失误,不过这个idea还是相当不错的 这个东西挺好哈,作为文学创作,生成一些UI素材图片岂不是美滋滋。。那有没有开源的能自己搭一个简单的我们只需要描述就生成图片的工具呢?答案是肯定的。二、稳定扩散模型    稳定扩散模型在AI图像生成中的应用是比较新颖的一种方法。它是基于一种称为"可逆稳定网络"(ReversibleStableNetwork,RSN)的生成模型,该模型使用了稳定分布来对生成的图