Transformer的技能树是越来越厉害了。来自马萨诸塞大学、谷歌和伊利诺伊大学厄巴纳-香槟分校(UIUC)的研究人员发表了一篇论文,利用大语言模型自动生成定理的完整证明。论文地址:https://arxiv.org/pdf/2303.04910.pdf这篇工作以Baldur(北欧神话中雷神Thor的兄弟)命名,首次证明了使用Transformer生成全证明是可能的,并且当为模型提供额外的上下文时,还可以改进模型先前的证明。文章发表于2023年12月在旧金山举行的ESEC/FSE(ACM欧洲软件工程联合会议和软件工程基础研讨会)上,并获得了杰出论文奖(DistinguishedPaperaw
人工智能顶会/顶刊汇总 ,方便查阅,持续更新,若有错误烦请大家及时提出!一、CCFA类 简称 全称录用率频次内容官网截稿日期IJCAIInternationalJointConferenceonArtificialIntelligence2020年12.55%,2021年13.9%,2022年14.97%。每年一次1.IJCAI主要接收人工智能领域的论文,包括但不限于机器学习、计算机视觉、自然语言处理、智能机器人、智能控制、专家系统等方面的论文。具体而言,IJCAI接收的论文主题涵盖了人工智能基础理论、智能算法与技术、机器学习与数据挖掘、自然语言处理、智能人机交互、智能感知与识别、智能机器人、
混合专家模型(MoE)是一种深度学习技术,它通过将多个模型(这些模型被称为"专家")直接结合在一起,以加快模型训练的速度,获得更好的预测性能。这种模型设计策略在大模型中尤为重要,它可以解决大模型在训练时面临的一些问题。比如通过层之间的参数共享,MoE能够压缩模型大小;利用MoE的设计,可以扩大模型容量。目前,基于Transformer扩展的大模型是当前各种大模型的主干,MoE则是扩展Transformer的一种关键技术。在大模型已至瓶颈的现在,MoE技术的发展为如何降低大模型训练难度和推理成本等难题提供了新的解题思路。这次我整理了2022-2023近两年混合专家模型相关的顶会顶刊论文54篇,分
当地时间12月10日,为期一周的全球AI顶级会议NeurlPS在美国路易斯安那州新奥尔良市举办。NeurlPS官方数据显示,本届会议共有12343篇有效论文投稿,接收率为26.1%。蚂蚁集团20篇论文被收录。据了解,蚂蚁此次入选的论文,覆盖计算机视觉、自然语言处理、图神经网络、图像处理等多个人工智能和机器学习领域的前沿主题。其中七成以上论文聚焦生成式AI在高速发展中遇到的一些挑战和难题。以下为其中三篇的论文解读。01Prompt-augmentedTemporalPointProcessforStreamingEventSequencePromptTPP:PromptPool与时序点过程模型的
对于自然语言处理领域的研究人员,最近有一条好消息。近日,计算语言学协会年会(ACL)正式宣布,该系列会议论文投稿已取消匿名期,同时允许作者在投稿期间宣传自身工作。新规定直接适用于下一个审稿周期。今年的ACL是第62届,将于2024年8月11日至16日在泰国曼谷举行。自2022年起,ACL启用了滚动审稿机制(ACLRollingReview,ARR),每月设deadline。需要注意的是,在上一个截止日期之前提交给评审流程的论文仍受旧匿名政策的约束。大会声明链接:https://www.aclweb.org/portal/据了解,ACL会方是在最新一期工作组报告的建议下实行了新规的,新的政策也会
文章目录一、实力分割论文1.1PatchDCT:PatchRefinementforHighQualityInstanceSegmentation【ICLR2023】1.2RecurrentContour-basedInstanceSegmentationwithProgressiveLearning【TPAMI2023】1.3InstanceSegmentationintheDark【IJCV2023】1.4OpenMask3D:Open-Vocabulary3DInstanceSegmentation【NeurIPS2023】1.5ISBNet:a3DPointCloudInstanceS
LargeLanguageModelsofCodeFailatCompletingCodewithPotentialBugs写在最前面论文名片对于命名实体识别、关系抽取任务的启发课堂讨论实验自己构建的数据集价值1、论文介绍相关工作:代码补全存在的问题研究的重点论文结论与改进2、Buggy-CodeCompletion代码补全任务的基本概念有错误的代码补全的挑战方案设计的其他考虑3.评估方法评估方法概述3.1基准数据集Buggy-HumanEvalBuggy-FixEval3.2提升Code-LLM性能的方法3.3评估指标4.实验设计实验概述4.1实验设置Code-LLMs(代码大规模语言模型)
IsConditionalGenerativeModelingallyouneedforDecisionMaking?1.引言条件生成建模传统强化学习面临的挑战作者的研究动机与创新点2.重要概念强化学习扩散概率模型传统的强化学习到生成建模的转变本文提出方法的总体框架3.决策扩散的概念和设计扩散状态(DiffusingOverStates)逆向动力学(ActingwithInverse-Dynamics)无分类器指导规划(PlanningwithClassifier-FreeGuidance)超越回报的条件化(ConditioningBeyondReturns)训练与实现细节1.引言条件生成建模
随着深度神经网络(DNNs)模型在规模和复杂性上的迅速增长,传统的神经网络处理方法面临着严峻的挑战。现有的神经网络压缩技术在处理参数规模大、精度要求高的神经网络模型时效率低下,无法满足现有应用的需求。数值量化是神经网络模型压缩的一种有效手段。在模型推理过程中,低位宽(比特)数据的存取和计算可以大幅度节省存储空间、访存带宽与计算负载,从而降低推理延迟和能耗。当前,大多数量化技术的位宽在8bit。更为激进的量化算法,必须要修改硬件的操作粒度与数据流特征,才能在真实推理时获得接近理论的收益。比如混合精度量化,激活数据的量化等方案。一方面,这些方案会显式增加book-keeping存储开销和硬件逻辑,
文章目录十、WinCLIP:Zero-/Few-ShotAnomalyClassificationandSegmentation十一、ExplicitBoundaryGuidedSemi-Push-PullContrastiveLearningforSupervisedAnomalyDetection十二、RevisitingReverseDistillationforAnomalyDetection十三、CollaborativeDiscrepancyOptimizationforReliableImageAnomalyLocalization十四、PushingtheLimitsofFew