草庐IT

今日Arxiv最热NLP大模型论文:Llama-2上下文扩大48倍的方法来了,港大发布,无需训练

引言:大语言模型的长上下文理解能力在当今的人工智能领域,大语言模型(LargeLanguageModels,简称LLMs)的长上下文理解能力成为了一个重要的研究方向。这种能力对于模型来说至关重要,因为它使得LLMs能够有效地应对各种应用场景,例如在庞大的PDF文件中分析和回应查询、保留扩展的对话历史以及增强交互式聊天机器人的功能。然而,由于训练语料库的可获取性有限,以及长上下文微调的成本过高,目前的开源模型在性能上往往无法与专有模型相媲美,且通常只能提供较小的模型尺寸(例如7B/13B)。针对这些限制,不需要额外训练即可进行上下文扩展的方法变得尤为吸引人。最近的无训练方法,包括LM-infin

今日arXiv最热NLP大模型论文:像人一样浏览网页执行任务,腾讯AI lab发布多模态端到端Agent

‍Agent的发展成为了LLM发展的一个热点。只需通过简单指令,Agent帮你完成从输入内容、浏览网页、选择事项、点击、返回等一系列需要执行多步,才能完成的与网页交互的复杂任务。比如给定任务:“搜索Apple商店,了解iPad智能保护壳SmartFolio的配件,并查看最近的自提点位置(邮政编码90038)。”下图演示Agent如何按照在线方式逐步与Apple网站进行交互,完成任务。在最后的屏幕截图中,Agent获取了所需的信息,然后选择"ANSWER"动作进行回应和导航的结束。▲在线网络浏览完整轨迹的屏幕截图Agent与Apple网站进行交互,并获得答案:“AppleValleyFair。”

【arxiv论文阅读】Transformers in Vision: A Survey.

Khan,S.,Naseer,M.,Hayat,M.,Zamir,S.W.,Khan,F.S.,&Shah,M.(2021).TransformersinVision:ASurvey.InarXiv[cs.CV].arXiv.http://arxiv.org/abs/2101.01169Transformer综述摘要Transformer模型在自然语言任务上取得的惊人成果引起了视觉社区对研究它们在计算机视觉问题中的应用的兴趣。在它们显著的优势中,Transformer使得能够对输入序列元素之间的长依赖关系进行建模,并支持对序列的并行处理,相比之下循环网络(如长短时记忆网络LSTM)需要更多的设

2024 年1月15日Arxiv最热CV论文:Scalable 3D Panoptic Segmentation With Superpoint Graph Clustering

引言:探索大规模3D点云全景分割的新方法在3D计算机视觉领域,理解大规模3D环境对于多种高影响力应用至关重要,例如创建大型工业设施的“数字孪生”,或者是整个城市的数字化。这些应用场景需要能够处理含有数百万3D点的大型点云,并准确预测每个点的语义,同时恢复特定对象的所有实例,这一任务被称为3D全景分割。然而,大规模3D全景分割尤其具有挑战性,因为场景的规模往往包含数百万3D点,以及对象的多样性——从几个到数千个,大小变化极大。为了解决这些挑战,我们介绍了一种高效的方法,通过将全景分割任务重新定义为一个可扩展的图聚类问题,从而实现了大规模3D点云的全景分割。这种方法可以仅使用局部辅助任务进行训练,

2024年1月17日Arxiv最热论文推荐:清华提出多模态知识检索新框架、MIT新方法大幅提升LLMs的连贯性、浙大新模型助力视频任务新突破、Meta 革新搜索技术、Google革新AI写作

本文整理了今日发表在ArXiv上的AI论文中最热门的TOP5。论文解读、论文热度排序、论文标签、中文标题、推荐理由和论文摘要均由赛博马良平台(saibomaliang.com)上的智能体 「AI论文解读达人」 提供。如需查看其他热门论文,欢迎移步 saibomaliang.com   ^_^TOP1GenerativeMulti-ModalKnowledgeRetrievalwithLargeLanguageModels标题:清华&腾讯联手突破!提出多模态知识检索新框架,性能大幅领先,AAAI2024亮相标签:Tsinghua、Tencent、NLP、IR、AAAI2024作者:XinweiL

[arxiv论文阅读] LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding

Yang,S.,Liu,J.,Zhang,R.,Pan,M.,Guo,Z.,Li,X.,Chen,Z.,Gao,P.,Guo,Y.,&Zhang,S.(2023).LiDAR-LLM:ExploringthePotentialofLargeLanguageModelsfor3DLiDARUnderstanding.InarXiv[cs.CV].arXiv.http://arxiv.org/abs/2312.14074最近,大型语言模型(LLMs)和多模态大型语言模型(MLLMs)在指令跟随和2D图像理解方面表现出了潜力。虽然这些模型很强大,但它们尚未被开发成能够理解更具挑战性的3D物理场景,特

【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(12 月 6 日论文合集)

文章目录一、检测相关(10篇)1.1Diffusion-SS3D:DiffusionModelforSemi-supervised3DObjectDetection1.2TowardsMorePracticalGroupActivityDetection:ANewBenchmarkandModel1.3AreSyntheticDataUsefulforEgocentricHand-ObjectInteractionDetection?AnInvestigationandtheHOI-SynthDomainAdaptationBenchmark1.4DiffusionNoiseFeature:A

打造「专属arXiv」!德国高校顶级视觉团队推出「论文定制化」推荐系统,免费开放

10毫秒生成一张图像,1分钟6000张图像,这是什么概念?下图中,就可以深刻感受到AI的超能力。图片甚至,当你在二次元小姐姐图片生成的提示中,不断加入新的元素,各种风格的图片更迭也是瞬间闪过。图片如此惊人的图片实时生成速度,便是来自UC伯克利、日本筑波大学等研究人员提出StreamDiffusion带来的结果。这个全新的解决方案是一种扩散模型流程,能够以超过100fps的速度,实现实时交互式图像生成。图片论文地址:https://arxiv.org/abs/2312.12491StreamDiffusion开源后直接霸榜GitHub,狂揽3.7k星。图片StreamDiffusion创新性采用

【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(11 月 28 日论文合集)

文章目录一、检测相关(9篇)1.1AutomatedDetectionandCountingofWindowsusingUAVImagerybasedRemoteSensing1.2OneStrike,You'reOut:DetectingMarkushStructuresinLowSignal-to-NoiseRatioImages1.3Multi-ClassAnomalyDetectionbasedonRegularizedDiscriminativeCoupledhypersphere-basedFeatureAdaptation1.4ANewBenchmarkandModelforCh

【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(6月 23 日论文合集)

文章目录一、检测相关(4篇)1.1Targetedcollapseregularizedautoencoderforanomalydetection:blackholeatthecenter1.2RXFOOD:Plug-inRGB-XFusionforObjectofInterestDetection1.3TowardAutomatedDetectionofMicrobleedswithAnatomicalScaleLocalization:ACompleteClinicalDiagnosisSupportUsingDeepLearning1.4ComparativeAnalysisofSeg