草庐IT

用多模态世界模型预测未来!UC伯克利全新AI智能体,精确理解人类语言,刷新SOTA

现在,基于强化学习的智能体已经可以轻松地执行诸如「捡起蓝色积木」这类的指令。但人类大部分时间的语言表达,却远远超出了指令的范围。比如:「我们好像没有牛奶了」......而智能体想要学习这类语言在世界中的含义,是非常困难的。对此,来自UC伯克利的研究团队认为,我们实际上可以利用这些语言,来帮助智能体更好地对未来进行预测。论文地址:https://arxiv.org/pdf/2308.01399.pdf具体来说,研究人员提出了一种全新的智能体——Dynalang。与仅用语言预测动作的传统智能体不同,Dynalang通过使用过去的语言来预测未来的语言、视频和奖励,从而获得丰富的语言理解。除了在环境中

GPT-4最强平替更新!UC伯克利发布Vicuna v1.5,支持4K和16K上下文,刷新SOTA,LeCun转赞

GPT-4最强平替更新了!这次,基于全新的Llama2,UC伯克利发布了更新版Vicunav1.5。不仅支持4K和16K上下文,并且在几乎所有基准测试中取得了SOTA。自3月发布以来,Vicuna已成为最受欢迎的聊天LLM之一。它在多模态、AI安全和评估方面的研究具有开创性。上个月,Vicuna模型在HuggingFace上的下载量超过了200万次。LeCun也转发了基于自家模型搭建的新版Vicuna。最新模型权重Vicuna基于LLaMA,应在LLaMA的模型许可下使用。你可以使用下面的命令开始聊天。它会自动从HuggingFace存储库下载权重。在下面的「使用命令行界面进行推理」部分中查看

清华校友立功!谷歌发布首个全科医疗大模型,14项任务SOTA

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。全球首个全科医疗大模型正式发布:由谷歌Research和DeepMind共同打造的多模态生成模型Med-PaLMM,懂临床语言、懂影像,也懂基因组学。在14项测试任务中,Med-PaLMM均接近或超过现有SOTA,前提是所有任务都使用一组相同的模型权重。而在246份真实胸部X光片中,临床医生表示,在高达40.50%的病例中,Med-PaLMM生成的报告都要比专业放射科医生的更受采纳,这表明Med-PaLMM并非“纸上谈兵”,用于临床指日可待。对此,谷歌也自己给出了评价:这是通用医学人工智能史上的一个里程碑。所以,Med

突破自监督学习效率极限!马毅、LeCun联合发布EMP-SSL:无需花哨trick,30个epoch即可实现SOTA

过去几年,无监督和自监督学习(SSL)取得了巨大进步,通过SSL学习得到的表征在分类性能上甚至赶上了有监督学习,在某些情况下甚至还能超过有监督学习,这一趋势也为视觉任务的大规模数据驱动无监督学习提供了可能。虽然自监督学习的实验性能惊人,但大多数自监督学习方法都是相当「低效」的,通常需要数百个训练epoch才能完全收敛。  最近,马毅教授、图灵奖得主YannLeCun团队发布了一种新的自监督学习方法Extreme-Multi-PatchSelf-Supervised-Learning(EMP-SSL),证明了高效自监督学习的关键是增加每个图像实例中的图像块数量。论文链接:https://arxi

30%Token就能实现SOTA性能,华为诺亚轻量目标检测器Focus-DETR效率倍增

目前DETR类模型已经成为了目标检测的一个主流范式。但DETR算法模型复杂度高,推理速度低,严重影响了高准确度目标检测模型在端侧设备的部署,加大了学术研究和产业应用之间的鸿沟。来自华为诺亚、华中科技大学的研究者们设计了一种新型的DETR轻量化模型Focus-DETR来解决这个难题。论文地址:https://arxiv.org/abs/2307.12612代码地址-mindspore:https://github.com/linxid/Focus-DETR代码地址-torch:https://github.com/huawei-noah/noah-research/tree/master/Foc

国内团队提出全新RLTF框架,刷新SOTA!大模型生成代码质量更高bug更少

「程序合成」或「代码生成」任务的目标是根据给定的描述生成可执行代码,最近有越来越多的研究采用强化学习(RL)来提高大语言模型(简称大模型)(LLM)在代码方面的性能。不过,这些RL方法仅使用离线框架,限制了它们对新样本空间的探索。此外,当前利用单元测试信号的方法相当简单,没有考虑到代码中特定错误位置。而国内团队最近发布的新型在线RL框架RLTF(即基于单元测试反馈的强化学习),可以将代码的多粒度单元测试反馈结果用于优化codeLLM,在训练过程中实时生成数据,并同时利用细粒度反馈信号引导模型生成更高质量的代码。有趣的是,小编发现这篇论文的作者,和曾经称霸王者峡谷的腾讯绝悟AI的作者,有所重叠。

0参数量 + 0训练,3D点云分析方法Point-NN刷新多项SOTA

论文链接:https://arxiv.org/pdf/2303.08134.pdf代码地址:https://github.com/ZrrSkywalker/Point-NN本文提出了一个用于3D点云分析的非参数网络Point-NN,它仅由纯不可学习的组件组成:最远点采样(FPS)、k近邻(k-NN)、三角函数(TrigonometricFunctions)以及池化(Pooling)操作。不需要参数和训练,它能够在各种3D任务上都取得不错的准确率,甚至在few-shot分类上可以大幅度超越现有的完全训练的模型。基于Point-NN的非参数框架,这项研究对于当前3D领域的贡献如下:1、首先,我们可

论文笔记:CVPR2023 IRRA—隐式推理细粒度对齐模型,语言行人检索任务新SOTA,CUHK-PEDES数据集Rank-1可达73.38%!

目录论文基本信息引言模型模态编码器ImplicitRelationReasoning模块与MLM任务SimilarityDistributionMatching结果论文基本信息论文:Cross-ModalImplicitRelationReasoningandAligningforText-to-ImagePersonRetrieval代码:https://github.com/anosorae/IRRA这是今年CVPR2023的工作,也是目前在语言行人检索领域实现SOTA性能的模型,模型整体并不复杂性能却很好,代码也做了开源,是一个非常好的工作。下面将对该文章进行简要的梳理与记录,还不太了解

用SAM做零样本视频对象分割!港科大等开源首个「稀疏点传播」方法SAM-PT,性能直追有监督SOTA

视频分割是自动驾驶、机器人技术、视频编辑等应用场景的基础技术,但目前的方法在零样本学习设置下,或是预测未见过的样本时,会出现性能不一致等问题。今年4月,MetaAI开源了一个非常强大的图像分割基础模型SegmentAnythingModel(SAM),经过1100万张图像训练后,SAM具有非常强的泛化性能,并可以应用于各种下游应用。不过,虽然SAM屠榜了整个图像分割领域,但它并不适用于视频分割任务。图片最近,来自苏黎世联邦理工学院、香港科技大学、瑞士洛桑联邦理工学院的研究人员发布了SAM-PT模型,利用稳健和稀疏的点选择(pointselection)和传播(propagation)技术来生成