草庐IT

2022年「百强AI论文」出炉:清华紧随谷歌排名第二,宁波工程学院成最大黑马

新智元 2023-03-28 原文
人工智能领域的创新步伐越来越快,论文数量也呈爆炸式增长,甚至达到了人力无法阅读的程度。 

在2022年发表的海量论文中,哪些机构的影响力最大?哪些论文更值得读?

最近外媒Zeta Alpha用经典的引用次数作为评估指标,收集整理了在2022年最高引的100篇论文,并分析了不同国家、机构在过去三年里发表的高引论文数量。

美国仍然领先,中国第二

按国家来划分的话,美国仍然占据领先地位,不过在Top-100论文中所占的比例相比2020年来说大幅下降。

中国排行第二,数据相比去年略有上涨;第三位是英国,DeepMind去年产出占英国总数的69%,超过了前几年的60%;新加坡和澳大利亚在AI领域的影响力也超出分析师的预期。

按照组织来划分的话,可以看到谷歌始终是AI领域的最强者,紧随其后的是 Meta、微软、加州大学伯克利分校、DeepMind和斯坦福大学,国内排行第一的是清华大学。 

作为Meta AI的带头人,Yann LeCun也自豪地宣布Meta在行业内的影响力,并表示Meta AI更重视出版质量,而不是出版数量。 

至于同属于Alphabet的谷歌和DeepMind在列表中单独计算的问题,LeCun表示DeepMind一直坚称它们独立于谷歌运营,这很奇怪,谷歌员工无法访问 DeepMind的代码库。

尽管如今人工智能研究大多由工业界引领,单个学术机构产生的影响不大,但由于长尾效应,学术界整体来说还是和工业界持平的,当按照组织类型对数据进行聚合时,可以看到二者的影响力大体是相等的。 

如果回顾过去三年,统计各个机构总的研究成果数量,可以看到谷歌仍处于领先地位,但与其他机构相比差距要小得多,值得一提的是,清华大学紧随谷歌排行第二。

OpenAI和DeepMind甚至没有进入前20名,当然,这些机构发表的文章数量较少,但每篇文章的影响力都很大。

如果按照出版量进入Top-100的比例来看,OpenAI独树一帜,在转化率上远超其他机构,基本上两篇论文中就有一篇成为「年度百大论文」。

当然,从ChatGPT的火爆来看,OpenAI确实很擅长营销,一定程度上促进了引用量的提升,不可否认的是,他们的研究成果质量非常高。

论文收集方法

首先在Zeta Alpha平台上收集每年被引用最多的论文,然后手动检查第一个发表日期(通常是arXiv预印本) 归类到对应的年份中。

通过挖掘Semantic Scholar上高引的人工智能论文来补充这个列表,其覆盖面更广,而且能够按引用次数进行排序,主要是从影响力很大的封闭来源出版商(例如《自然》、《爱思唯尔》、《施普林格》和其他杂志)那里获得额外的论文。

然后将每篇论文在 Google Scholar 上的引用次数作为代表性指标,并根据这个数字对论文进行排序,得出一年内排名前100位的论文。

对于这些论文,使用GPT-3提取作者、他们的附属机构和国家,并手动检查这些结果(如果国家在出版物中没有体现的话,采用该组织总部所在的国家)。

拥有多个机构的作者的论文对每个附属机构各计数一次。

2022年五强论文

1. AlphaFold Protein Structure Database: massively expanding the structural coverage of protein-sequence space with high-accuracy models 

论文链接:https://academic.oup.com/nar/article/50/D1/D439/6430488

发表机构:欧洲分子生物学实验室,DeepMind

AlphaFold DB:https://alphafold.ebi.ac.uk

引用量:1331

AlphaFold蛋白质结构数据库AlphaFold DB是一个可公开访问的、广泛的、高准确度的蛋白质结构预测的数据库。

在DeepMind的AlphaFold v2.0的支持下,该数据库使已知蛋白质序列空间的结构覆盖面得到了空前的扩展。 

AlphaFold DB提供了对预测的原子坐标、每个残基和成对的模型置信度估计以及预测的对齐误差的程序化访问和互动式可视化。

AlphaFold DB的初始版本包含了超过36万个预测结构,涵盖了21种模式生物的蛋白质组,未来将扩展到UniRef90数据集的大部分(超过1亿)代表性序列。 

2. ColabFold: making protein folding accessible to all 

论文链接:https://www.nature.com/articles/s41592-022-01488-1

代码链接:https://github.com/sokrypton/colabfold

环境链接:https://colabfold.mmseqs.com

引用量:1138

ColabFold通过将MMSEQS2的快速同源搜索与AlphaFold2或Rosettafold相结合,从而加速了对蛋白质结构和复合物的预测。

ColabFold在模型利用率上可以实现40-60倍加速的搜索和优化,能够在仅具有一个图形处理单元的服务器上预测近1000个结构。

ColabFold在Google Colaboratory的基础上,成为了一个蛋白质折叠的免费且可访问的平台,也是一个可用的开源软件。

3. A ConvNet for the 2020s 

论文链接:https://arxiv.org/pdf/2201.03545.pdf

引用量:835

视觉识别的「Roaring 20s」(咆哮的20年代)始于视觉Transformer(ViTs)的引入,它迅速取代了ConvNets成为最先进的图像分类模型。

另一方面,一个最简单的ViT在应用于通用计算机视觉任务时仍然面临着一些难题,如物体检测和语义分割。 

层次化Transformer(如Swin Transformers)重新引入了几个ConvNet先验,使得Transformer作为通用视觉模型骨干实际上是可行的,并在各种视觉任务中表现出显著的性能。

然而,这种混合方法的有效性仍然主要归功于Transformers的内在优势,而不是Convolutions的内在归纳偏见。

在这项工作中,研究人员重新审视了设计空间,并测试了纯ConvNet所能实现的极限。 

逐步将一个标准的ResNet「现代化」成ViT的设计,并在这一过程中发现了几个促成性能差异的关键组件,探索后发现了一个称为ConvNeXt的纯ConvNet模型系列。 

ConvNeXt完全由标准的ConvNet模块构成,在准确性和可扩展性方面与Transformer不相上下,在COCO检测和ADE20K分割方面取得了87.8%的ImageNet top-1准确性,并超过了Swin Transformers,同时保持了标准ConvNets的简单性和效率。

4. Hierarchical Text-Conditional Image Generation with CLIP Latents

论文链接:https://arxiv.org/abs/2204.06125

引用量:718 

像CLIP这样的对比式模型(Contrastive models)已经被证明可以学习到稳健的图像表征,能够捕捉到语义和风格。

为了利用这些表征来生成图像,研究人员提出了一个两阶段的模型:一个给定文本标题生成CLIP图像embedding的先验,以及一个以图像embedding为条件生成图像的解码器。

实验证明可以显式地生成图像表征能够提高图像的多样性,在逼真度和标题的相似性方面损失最小,并且以图像表征为条件的解码器也能产生图像的变化,保留其语义和风格,同时改变图像表征中不存在的非必要细节。

此外,CLIP的联合embedding空间使language-guided下的图像操作能够以zero-shot的方式进行。

对解码器使用扩散模型,并对先验的自回归和扩散模型进行实验,发现后者在计算上更有效率,能够生成质量更高的样本。

5. PaLM: Scaling Language Modeling with Pathways

论文链接:https://arxiv.org/pdf/2204.02311.pdf

引用量:426 

大型语言模型已被证明在各种自然语言任务中使用few-shot学习即可达到更高的性能,极大地减少了使模型适应特定应用所需的特定任务训练实例的数量。 

为了进一步了解scale对few-shot学习的影响,研究人员训练了一个5400亿参数、密集激活的Transformer语言模型Pathways Language Model(PaLM)。 

使用Pathways(一个新的ML系统,能够在多个TPU Pods上进行高效的训练)在6144个TPU v4芯片上训练得到PaLM,通过在数百个语言理解和生成基准上取得最先进的few-shot学习结果证明了scaling的好处。

在其中一些任务上,PaLM 540B实现了突破性的性能,在一套多步骤推理任务上超过了微调的最先进水平,并在最近发布的BIG-bench基准上超过了人类的平均性能。

大量的BIG-bench任务显示了模型规模的不连续改进,也意味着当规模扩大到最大的模型时,性能陡然提高。 

PaLM在多语言任务和源代码生成方面也有很强的能力,这一点也在一系列基准测试中得到了证明。

此外,研究人员还对偏见和毒性进行了全面的分析,并研究了与模型规模有关的训练数据记忆程度,最后讨论了与大型语言模型有关的伦理考虑,并讨论了潜在的缓解策略。

2022年国内五强论文

1. Swin Transformer V2: Scaling Up Capacity and Resolution

论文链接:https://arxiv.org/pdf/2111.09883.pdf

代码链接:https://github.com/microsoft/Swin-Transformer

引用量:266 

大规模的NLP模型已经被证明可以显著提高语言任务的性能,而且没有饱和的迹象,同时还展示了像人类一样的惊人的few-shot能力。

这篇论文旨在探索计算机视觉中的大规模模型,解决了大型视觉模型训练和应用中的三个主要问题,包括训练的不稳定性,预训练和微调之间的分辨率差距,以及对有标签数据的需求。 

研究人员提出了三种主要技术: 

1)一种与余弦注意相结合的残差-后规范方法,以提高训练的稳定性; 

2)一种对数间隔的连续位置偏差方法,以有效地将使用低分辨率图像预训练的模型转移到具有高分辨率输入的下游任务中;

3)一种自监督的预训练方法SimMIM,以减少对大量标记图像的需求。

通过这些技术,成功地训练了一个30亿参数的Swin Transformer V2模型,这是迄今为止最大的稠密视觉模型,并使其能够用高达1,536×1,536分辨率的图像进行训练。 

在4个代表性的视觉任务上创造了新的性能记录,包括ImageNet-V2图像分类、COCO物体检测、ADE20K语义分割和Kinetics-400视频动作分类。 

同时可以注意到该训练比谷歌的十亿级视觉模型中的训练效率要高得多,所消耗的有标签数据和训练时间要少40倍。

2. Ensemble unsupervised autoencoders and Gaussian mixture model for cyberattack detection

之前的研究采用了具有降维功能的无监督机器学习来进行网络检测,仅限于对高维和稀疏数据进行鲁棒的异常检测。 

大多数方法通常假设每个领域的参数是同质的,具有特定的高斯分布,忽视了数据偏度的鲁棒性测试。 

论文链接:​https://www.sciencedirect.com/science/article/pii/S0306457321003162​

引用量:145

这篇论文提出使用连接到高斯混合模型(GMM)的无监督集合自编码器来适应多个领域,无需考虑每个领域的偏度(skewness)。

在集成自编码器的隐藏空间中,利用了基于注意力的潜在表征和重建的最小误差的特征,使用期望最大化(EM)算法来估计GMM中的样本密度,当估计的样本密度超过训练阶段获得的学习阈值时,该样本被识别为与异常有关的离群点。

最后,对集成自编码器和GMM进行联合优化,将目标函数的优化转化为拉格朗日对偶问题,在三个公共数据集上进行的实验验证了所提出的模型的性能与所选择的异常检测基线相比有明显竞争力。 

论文共同一作为来自宁波工程学院的安鹏教授和同济大学的Zhiyuan Wang。

安鹏教授目前是宁波工程学院电子与信息工程学院副院长,2000年至2009年就读于清华大学工程物理系,获工学学士学位、工学博士学位;欧洲核子研究中心、意大利国家帕多瓦大学、德国海德堡大学访问学者,中国自动化学会认知计算与系统专业委员会委员、中国人工智能学会认知系统与信息处理专业委员会委员、中国指挥与控制学会青年工作委员会委员;主持并参与国家重点基础研究发展计划(973计划)、国家自然科学基金、国家星火计划项目等多项科研项目。

3. Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs

论文链接:https://arxiv.org/abs/2203.06717

代码链接:https://github.com/megvii-research/RepLKNet

引用量:127

文中回顾了现代卷积神经网络(CNN)中的大核设计。 

受视觉Transformer(ViTs)最新进展的启发,该论文证明了使用几个大的卷积内核代替一堆小的内核可能是一个更强大的范例。

研究人员提出了五个指导方针,例如,应用重新参数化的大深度卷积,来设计高效的高性能大内核 CNN。 

根据这些指导方针提出了RepLKNet,一个纯粹的 CNN 架构,其内核大小为31x31,与通常使用的3x3形成对比,RepLKNet 极大地缩小了 CNN 和 ViTs 之间的性能差距,例如在 ImageNet 和一些典型的下游任务上,以较低的延迟实现了与 Swin Transformer 相当或更好的结果。

RepLKNet 对大数据和大模型也表现出很好的可扩展性,在 ImageNet 上获得了87.8% 的最高准确率,在 ADE20K 上获得了56.0% 的 mIoU,在具有类似模型大小的最先进技术中是非常有竞争力的。

该研究进一步表明,与小核 CNN 相比,大核 CNN 具有更大的有效接收场(receptive fields)和更高的形状偏差,而不是纹理偏差。

4. TensoRF: Tensorial Radiance Fields

论文链接:https://arxiv.org/abs/2203.09517

引用量:110 

文中提出了TensoRF,一种对辐射场(radiance fields)进行建模和重构的新方法。

与纯粹使用MLP的NeRF不同,研究人员将场景的辐射场建模为一个4D张量,代表了一个具有每体素多通道特征(per-voxel multi-channel features)的三维体素网格,其中心思想是将4D场景张量分解为多个紧凑的低秩张量成分。

证明了在该框架中应用传统的CP分解,将张量分解为具有紧凑向量的rank-one components会获得比普通的NeRF更好的性能。 

为了进一步提高性能,文中还引入了一种新的矢量-矩阵(VM)分解,放松了张量的两种模式的低秩约束,并将张量分解为紧凑的矢量和矩阵因子。

除了更好的渲染质量,该模型与CP和VM分解相比,直接优化每象素特征的先前和同时进行的工作导致了显著的内存占用。

实验证明,与NeRF相比,采用CP分解的TensoRF实现了快速重建(<30分钟),具有更好的渲染质量,甚至更小的模型尺寸(<4MB)。 

此外,采用VM分解的TensoRF进一步提高了渲染质量,并超过了以前最先进的方法,同时减少了重建时间(<10分钟)并保留了紧凑的模型大小(<75 MB)。

5. VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training 

论文链接:https://arxiv.org/abs/2203.12602

代码链接:https://github.com/MCG-NJU/VideoMAE

引用量:100 

为了在相对较小的数据集上实现更高的性能,通常需要在额外的大规模数据集上预训练视频Transformer。

这篇论文表明视频掩码自动编码器(VideoMAE)是用于自监督视频预训练(SSVP)的数据高效学习器。

受到最近的ImageMAE的启发,研究人员提出了具有极高掩码比例的定制视频管(video tube),这种简单的设计使视频重建成为一项更具挑战性的自监督任务,从而鼓励在这个预训练过程中提取更有效的视频表征。 

在SSVP上获得了三个重要的发现:

(1)极高比例的掩码率(即90%到95%)仍然能产生VideoMAE的有利表现。时间上冗余的视频内容使得掩蔽率比图像更高。

(2) VideoMAE在非常小的数据集(即大约3k-4k的视频)上取得了非常高的性能,而没有使用任何额外的数据。 

(3) VideoMAE表明,对于SSVP来说,数据质量比数据数量更重要。 

预训练和目标数据集之间的领域迁移是一个重要问题。

值得注意的是,VideoMAE与普通的ViT可以在Kinetics-400上达到87.4%,在Something-Something V2上达到75.4%,在UCF101上达到91.3%,在HMDB51上达到62.6%,而无需使用任何额外的数据。 

完整百强论文列表

有关2022年「百强AI论文」出炉:清华紧随谷歌排名第二,宁波工程学院成最大黑马的更多相关文章

  1. 映宇宙2022年营收63亿元:同比下降三成,毛利率提升4.3个百分点 - 2

    3月26日,映宇宙(HK:03700,即“映客”)发布截至2022年12月31日的2022年度业绩财务报告。财报显示,映宇宙2022年的总营收为63.19亿元,较2021年同期的91.76亿元下降31.1%。2022年,映宇宙的经营亏损为4698.7万元,2021年同期则为净利润4.57亿元;期内亏损(净亏损)为1.68亿元,2021年同期的净利润为4.33亿元;非国际财务报告准则经调整净利润为3.88亿元,2021年同期为4.82亿元,同比下降19.6%。 映宇宙在财报中表示,收入减少主要是由于行业竞争加剧,该集团对旗下产品采取更为谨慎的运营策略以应对市场变化。不过,映宇宙的毛利率则有所提升

  2. 未来的趋势————以ChatGPT为标杆的AI对生活的影响是巨大的 - 2

    文章目录前言1.AI的发展历程2.我是如何接触到人工智能的概念和产品的3.对于ChatGPT的一点看法4.AI对大学毕业生的职业发展的利与弊5.对于AI的思考和问题前言随着ChatGPT的爆火,生成式AI,大模型的人工智能被越来越多的人注意到,同时他也带来了许多问题。本文将对几方面进行探讨。1.AI的发展历程远古时期在公元前第一个千禧年,中国,印度和希腊哲学家都提出了一些推理的研究理论,比如亚里士多德(Aristotle)进行了演绎推理三段论的完整分析,欧几里得(Euclid)所著Elements是一种形式推理的模型,MuḥammadibnMūsāal-Khwārizmī,发明了代数学,即我们

  3. 焕新古文化传承之路,AI为古彝文识别赋能 - 2

    目录1古彝文与古典保护2古文识别的挑战2.1西文与汉文OCR2.2古彝文识别难点3合合信息:古彝文保护新思路3.1图像矫正3.2图像增强3.3语义理解3.4工程技巧4总结1古彝文与古典保护彝文指的是云南、贵州、四川等地的彝族人使用的文字,区别于现代意义上的彝文,古彝文指的是在民间流通使用的原生态彝文,多达87046字。古彝文的起源距今至少数千年,是世界上最古老的文字之一。对古彝文字集研究有助于理解尚未被翻译成汉文、用字尚未规范化的古籍,更深层、透彻地作用于传统文化保护。古彝文字义对照图(网络资料+邵文苑供图)古籍是不可再生的宝贵资源,应当得到妥善保护。中国的古籍在历史上迭经水火兵燹等自然灾害、

  4. IDEA 2022 创建 Spring Boot 项目详解 - 2

    如何用IDEA2022创建并初始化一个SpringBoot项目?目录如何用IDEA2022创建并初始化一个SpringBoot项目?0. 环境说明1.  创建SpringBoot项目 2.编写初始化代码0. 环境说明IDEA2022.3.1JDK1.8SpringBoot1.  创建SpringBoot项目        打开IDEA,选择NewProject创建项目。        填写项目名称、项目构建方式、jdk版本,按需要修改项目文件路径等信息。        选择springboot版本以及需要的包,此处只选择了springweb。        此处需特别注意,若你使用的是jdk1

  5. 华为认证的网络工程师证好考吗,含金量高吗 ? - 2

    华为认证分等级的,相当于初中高三个等级,当然高级是比较难考的,也是含金量最高的。我就慢慢给你介绍一下。1.了解华为认证华为认证网络工程师是由华为公司认证与采购部推出的独立认证体系,与之前的华为认证不同,简称HCIA。同时华为认证是华为技术有限公司凭借多年信息通信技术人才培养经验,以及对行业发展的理解,以层次化的职业技术认证为指引,推出的覆盖IP、IT、CT以及ICT融合技术领域的认证体系,是ICT全技术领域认证体系。​2.怎么考取华为认证网络工程师?要考取华为认证网络工程师必须选择最近的Prometric授权考试中心APTC报名并参加GB0-190的考试,考试通过后,以获得由华为统一签发的“华

  6. 打通源码,高效定位代码问题|云效工程师指北 - 2

    大家好,我叫胡飞虎,花名虎仔,目前负责云效旗下产品Codeup代码托管的设计与开发。代码作为企业最核心的数据资产,除了被构建、部署之外还有更大的价值。为了帮助企业和团队挖掘更多源代码价值以赋能日常代码研发、运维等工作,云效代码团队在大数据和智能化方向进行了一系列的探索和实践(例如代码搜索与推荐),本文主要介绍我们如何通过直接打通源代码来提高研发与运维效率。随着微服务架构的流行,一个业务流程需要多个微服务共同完成。一旦出现问题,运维人员在面对数量多、调用链路复杂的情况下,很难快速锁定导致问题发生的罪魁祸首:代码。为了提高排查效率,目前常见的解决方案是:链路跟踪+日志分析工具相结合。即通过链路跟踪

  7. ruby - 将排序的 Ruby 数组转换为具有可能重复的排名 - 2

    我在Ruby中有以下数字数组(越高越好),我想对它们进行排序。换句话说,我想转换以下排序列表:[8952523618185]以下等级:[1224557]例如,获胜者获得第一名,并列第二名,依此类推。很明显,重要的一点是平局是可能的,然后这些平局必须跳过相应的行列。可能出现任意数量的并列(3人并列第二)。有没有一种优雅的方式来执行这种操作? 最佳答案 使用Enumerable#group_by:a=[89,52,52,36,18,18,5]rank=1a.group_by{|x|x}.map{|k,v|ret=[rank]*v.siz

  8. 2022年10月23日周赛ZZULIOJ - 2

    文章目录问题B:芝华士威士忌和他的小猫咪们代码&注释问题C:愿我的弹雨能熄灭你们的痛苦代码注释问题D:猜糖果游戏代码注释问题E:有趣的次方代码注释问题F:这是一个简单题代码&注释问题G:打印矩阵代码注释问题H:scz的简单考验代码注释问题I:完美区间代码&注释问题J:是狂热的小迷妹一枚吖~代码&注释2022年10月23日周赛ZZULIOJ问题B:芝华士威士忌和他的小猫咪们时间限制:1Sec内存限制:128MB题目描述芝华士威士忌很喜欢带着他的猫咪们一块跑着玩。但是小猫咪们很懒,只有在离他y米以内才愿意和他一块跑。这天他在坐标为x的位置,他想和他的猫咪们一块跑着玩。有n个小猫咪,第i个小猫咪在坐

  9. 【华为OD机试真题 java、python、c++】荒地电站建设【2022 Q4 100分】(100%通过+复盘思路) - 2

    代码请进行一定修改后使用,本代码保证100%通过率,本题目提供了java、python、c++三种代码。复盘思路在文章的最后题目描述祖国西北部有一片大片荒地,其中零星的分布着一些湖泊,保护区,矿区;整体上常年光照良好,但是也有一些地区光照不太好。某电力公司希望在这里建设多个光伏电站,生产清洁能源对每平方公里的土地进行了发电评估,其中不能建设的区域发电量为0kw,可以发电的区域根据光照,地形等给出了每平方公里年发电量x千瓦。我们希望能够找到其中集中的矩形区域建设电站,能够获得良好的收益。输入描述第一行输入为调研的地区长,宽,以及准备建设的电站【长宽相等,为正方形】的边长最低要求的发电量之后每行为

  10. 玩客云刷机(2022-3-19亲测) - 2

    https://cloud.189.cn/t/BJbYreYbmUj2(访问码:djz6)(网盘2022-4-1更新)一、刷入armbian。1.1使用AmlBurnTool软件烧录首选底包至固件。烧录完成后断开玩客云电源备用。(靠近hdmi的那个口子。)1.2使用WIn32diskimager软件将emmc固件写入U盘。1.3写入成功后,先将U盘插入玩客云靠近网线接口端的USB口,再接入电源。玩客云通电后指示灯会先亮绿灯,再亮蓝灯,红蓝闪烁,最后蓝灯常亮。等到确定蓝灯常亮后,再拔掉U盘、电源。(最好蓝灯常亮后,启动一次玩客云,看看ssh是否正常。)1.4使用WIn32diskimager写入

随机推荐