草庐IT

Meta-Transformer

全部标签

Meta「分割一切」超进化版来了!IDEA领衔国内顶尖团队打造:检测、分割、生成一切,狂揽2k星

Meta的「分割一切」模型横空出世后,已经让圈内人惊呼CV不存在了。就在SAM发布后一天,国内团队在此基础上搞出了一个进化版本「Grounded-SAM」。注:项目的logo是团队用Midjourney花了一个小时做的Grounded-SAM把SAM和BLIP、StableDiffusion集成在一起,将图片「分割」、「检测」和「生成」三种能力合一,成为最强Zero-Shot视觉应用。网友纷纷表示,太卷了!谷歌大脑的研究科学家、滑铁卢大学计算机科学助理教授WenhuChen表示「这也太快了」。AI大佬沈向洋也向大家推荐了这一最新项目:Grounded-Segment-Anything:自动检测

两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey

近期,基于Transformer的算法被广泛应用于计算机视觉的各类任务中,但该类算法在训练数据量较小时容易产生过拟合问题。现有VisionTransformer通常直接引入CNN中常用的Dropout算法作为正则化器,其在注意力权重图上进行随机Drop并为不同深度的注意力层设置统一的drop概率。尽管Dropout十分简单,但这种drop方式主要面临三个主要问题。首先,在softmax归一化后进行随机Drop会打破注意力权重的概率分布并且无法对权重峰值进行惩罚,从而导致模型仍会过拟合于局部特定信息(如图1)。其次,网络深层中较大的Drop概率会导致高层语义信息缺失,而浅层中较小的drop概率会

两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey

近期,基于Transformer的算法被广泛应用于计算机视觉的各类任务中,但该类算法在训练数据量较小时容易产生过拟合问题。现有VisionTransformer通常直接引入CNN中常用的Dropout算法作为正则化器,其在注意力权重图上进行随机Drop并为不同深度的注意力层设置统一的drop概率。尽管Dropout十分简单,但这种drop方式主要面临三个主要问题。首先,在softmax归一化后进行随机Drop会打破注意力权重的概率分布并且无法对权重峰值进行惩罚,从而导致模型仍会过拟合于局部特定信息(如图1)。其次,网络深层中较大的Drop概率会导致高层语义信息缺失,而浅层中较小的drop概率会

文本生成视频Make-A-Video,根据一句话就能一键生成视频 Meta新AI模型

Meta公司(原Facebook)在今年9月29日首次推出一款人工智能系统模型:Make-A-Video,可以从给定的文字提示生成短视频。Make-A-Video研究基于文本到图像生成技术的最新进展,该技术旨在实现文本到视频的生成,可以仅用几个单词或几行文本生成异想天开、独一无二的视频,将无限的想象力带入生活。比如一句“三马奔腾”生成视频:初步预览地址:https://makeavideo.studio/文章链接:https://arxiv.org/abs/2209.14792本篇文章将根据论文边解读边介绍文本生成视频的效果、技术、发展和理解。一、摘要我们提出了Make-A-Video——一种

文本生成视频Make-A-Video,根据一句话就能一键生成视频 Meta新AI模型

Meta公司(原Facebook)在今年9月29日首次推出一款人工智能系统模型:Make-A-Video,可以从给定的文字提示生成短视频。Make-A-Video研究基于文本到图像生成技术的最新进展,该技术旨在实现文本到视频的生成,可以仅用几个单词或几行文本生成异想天开、独一无二的视频,将无限的想象力带入生活。比如一句“三马奔腾”生成视频:初步预览地址:https://makeavideo.studio/文章链接:https://arxiv.org/abs/2209.14792本篇文章将根据论文边解读边介绍文本生成视频的效果、技术、发展和理解。一、摘要我们提出了Make-A-Video——一种

基于Transformer的交通预测模型部分汇总【附源代码】

交通预测一直是一个重要的问题,它涉及到交通运输系统的可靠性和效率。随着人工智能的发展,越来越多的研究者开始使用深度学习模型来解决这个问题。其中,基于Transformer的交通预测模型在近年来备受关注,因为它们具有优秀的建模能力和较好的预测准确性。本文将介绍几个基于Transformer的交通预测模型,欢迎讨论。如有错误,也请指正。目录1.STTN(2020)2.TrafficTransformer(T-ITS2021)3.ASTGNN(TKDE2021)4.MGT(Neurocomputing2022)5.ASTTN(2022)6.PDFormer(AAAI2023)参考1.STTN(202

基于Transformer的交通预测模型部分汇总【附源代码】

交通预测一直是一个重要的问题,它涉及到交通运输系统的可靠性和效率。随着人工智能的发展,越来越多的研究者开始使用深度学习模型来解决这个问题。其中,基于Transformer的交通预测模型在近年来备受关注,因为它们具有优秀的建模能力和较好的预测准确性。本文将介绍几个基于Transformer的交通预测模型,欢迎讨论。如有错误,也请指正。目录1.STTN(2020)2.TrafficTransformer(T-ITS2021)3.ASTGNN(TKDE2021)4.MGT(Neurocomputing2022)5.ASTTN(2022)6.PDFormer(AAAI2023)参考1.STTN(202

Transformer到底为何这么牛

从注意力机制(attention)开始,近两年提及最多的就是Transformer了,那么Transformer到底是什么机制,凭啥这么牛?各个领域都能用?一文带你揭开Transformer的神秘面纱。目录1.深度学习(DL)背景介绍 2.Transformer的发展历程3.Transformer优缺点3.1Transformer的优点3.2Transformer的缺点4.Transformer详细过程4.1Transformer为什么可以并行?4.2归纳偏置4.3特征提取能力与自编码器1.深度学习(DL)背景介绍        深度学习自出生以来就不被看好,随着计算机的发展和硬件条件的提升,

Transformer到底为何这么牛

从注意力机制(attention)开始,近两年提及最多的就是Transformer了,那么Transformer到底是什么机制,凭啥这么牛?各个领域都能用?一文带你揭开Transformer的神秘面纱。目录1.深度学习(DL)背景介绍 2.Transformer的发展历程3.Transformer优缺点3.1Transformer的优点3.2Transformer的缺点4.Transformer详细过程4.1Transformer为什么可以并行?4.2归纳偏置4.3特征提取能力与自编码器1.深度学习(DL)背景介绍        深度学习自出生以来就不被看好,随着计算机的发展和硬件条件的提升,

AAAI 2023 | 一种通用的粗-细视觉Transformer加速方案

前言VisionTransformers中,输入图像的空间维度会出现相当大的冗余,从而导致大量的计算成本。因此,本文中提出了一种由粗到精的视觉变换器(CF-ViT)来减轻计算负担,同时保持性能。CF-ViT以两阶段的方式实现网络推理。在粗略推理阶段,输入图像被分成一个小长度的补丁序列,用于计算上经济的分类。如果没有被很好地识别,信息块将被识别并进一步以细粒度重新分割。在不影响Top-1准确率的情况下,该方法在ImageNet-1k上将LV-ViT-S的FLOPs降低53%,GPU上实测推理速度也加快了2倍。Transformer、目标检测、语义分割交流群欢迎关注公众号CV技术指南,专注于计算机