SOTA

用多模态世界模型预测未来！UC伯克利全新AI智能体，精确理解人类语言，刷新SOTA

现在，基于强化学习的智能体已经可以轻松地执行诸如「捡起蓝色积木」这类的指令。但人类大部分时间的语言表达，却远远超出了指令的范围。比如：「我们好像没有牛奶了」......而智能体想要学习这类语言在世界中的含义，是非常困难的。对此，来自UC伯克利的研究团队认为，我们实际上可以利用这些语言，来帮助智能体更好地对未来进行预测。论文地址：https://arxiv.org/pdf/2308.01399.pdf具体来说，研究人员提出了一种全新的智能体——Dynalang。与仅用语言预测动作的传统智能体不同，Dynalang通过使用过去的语言来预测未来的语言、视频和奖励，从而获得丰富的语言理解。除了在环境中

伯克伯克利 span text-align style 人工智能新闻智能研究

GPT-4最强平替更新！UC伯克利发布Vicuna v1.5，支持4K和16K上下文，刷新SOTA，LeCun转赞

GPT-4最强平替更新了！这次，基于全新的Llama2，UC伯克利发布了更新版Vicunav1.5。不仅支持4K和16K上下文，并且在几乎所有基准测试中取得了SOTA。自3月发布以来，Vicuna已成为最受欢迎的聊天LLM之一。它在多模态、AI安全和评估方面的研究具有开创性。上个月，Vicuna模型在HuggingFace上的下载量超过了200万次。LeCun也转发了基于自家模型搭建的新版Vicuna。最新模型权重Vicuna基于LLaMA，应在LLaMA的模型许可下使用。你可以使用下面的命令开始聊天。它会自动从HuggingFace存储库下载权重。在下面的「使用命令行界面进行推理」部分中查看

伯克伯克利 span text-align style 人工智能新闻模型测试

清华校友立功！谷歌发布首个全科医疗大模型，14项任务SOTA

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。全球首个全科医疗大模型正式发布：由谷歌Research和DeepMind共同打造的多模态生成模型Med-PaLMM，懂临床语言、懂影像，也懂基因组学。在14项测试任务中，Med-PaLMM均接近或超过现有SOTA，前提是所有任务都使用一组相同的模型权重。而在246份真实胸部X光片中，临床医生表示，在高达40.50%的病例中，Med-PaLMM生成的报告都要比专业放射科医生的更受采纳，这表明Med-PaLMM并非“纸上谈兵”，用于临床指日可待。对此，谷歌也自己给出了评价：这是通用医学人工智能史上的一个里程碑。所以，Med

全科清华 js_darkmode darkmode class 人工智能新闻谷歌模型

突破自监督学习效率极限！马毅、LeCun联合发布EMP-SSL：无需花哨trick，30个epoch即可实现SOTA

过去几年，无监督和自监督学习（SSL）取得了巨大进步，通过SSL学习得到的表征在分类性能上甚至赶上了有监督学习，在某些情况下甚至还能超过有监督学习，这一趋势也为视觉任务的大规模数据驱动无监督学习提供了可能。虽然自监督学习的实验性能惊人，但大多数自监督学习方法都是相当「低效」的，通常需要数百个训练epoch才能完全收敛。最近，马毅教授、图灵奖得主YannLeCun团队发布了一种新的自监督学习方法Extreme-Multi-PatchSelf-Supervised-Learning（EMP-SSL），证明了高效自监督学习的关键是增加每个图像实例中的图像块数量。论文链接：https://arxi

马毅花哨 text-align style align 人工智能新闻训练模型

30%Token就能实现SOTA性能，华为诺亚轻量目标检测器Focus-DETR效率倍增

目前DETR类模型已经成为了目标检测的一个主流范式。但DETR算法模型复杂度高，推理速度低，严重影响了高准确度目标检测模型在端侧设备的部署，加大了学术研究和产业应用之间的鸿沟。来自华为诺亚、华中科技大学的研究者们设计了一种新型的DETR轻量化模型Focus-DETR来解决这个难题。论文地址：https://arxiv.org/abs/2307.12612代码地址-mindspore：https://github.com/linxid/Focus-DETR代码地址-torch：https://github.com/huawei-noah/noah-research/tree/master/Foc

诺亚华为 span style text-align 人工智能新闻研究技术

国内团队提出全新RLTF框架，刷新SOTA！大模型生成代码质量更高bug更少

「程序合成」或「代码生成」任务的目标是根据给定的描述生成可执行代码，最近有越来越多的研究采用强化学习（RL）来提高大语言模型（简称大模型）（LLM）在代码方面的性能。不过，这些RL方法仅使用离线框架，限制了它们对新样本空间的探索。此外，当前利用单元测试信号的方法相当简单，没有考虑到代码中特定错误位置。而国内团队最近发布的新型在线RL框架RLTF（即基于单元测试反馈的强化学习），可以将代码的多粒度单元测试反馈结果用于优化codeLLM，在训练过程中实时生成数据，并同时利用细粒度反馈信号引导模型生成更高质量的代码。有趣的是，小编发现这篇论文的作者，和曾经称霸王者峡谷的腾讯绝悟AI的作者，有所重叠。

框架生成 span 模型粒度人工智能新闻研究技术

0参数量 + 0训练，3D点云分析方法Point-NN刷新多项SOTA

论文链接：https://arxiv.org/pdf/2303.08134.pdf代码地址：https://github.com/ZrrSkywalker/Point-NN本文提出了一个用于3D点云分析的非参数网络Point-NN，它仅由纯不可学习的组件组成：最远点采样（FPS）、k近邻（k-NN）、三角函数（TrigonometricFunctions）以及池化（Pooling）操作。不需要参数和训练，它能够在各种3D任务上都取得不错的准确率，甚至在few-shot分类上可以大幅度超越现有的完全训练的模型。基于Point-NN的非参数框架，这项研究对于当前3D领域的贡献如下：1、首先，我们可

Point-NN 刷新 span style text-align 人工智能新闻训练 3D

论文笔记：CVPR2023 IRRA—隐式推理细粒度对齐模型，语言行人检索任务新SOTA，CUHK-PEDES数据集Rank-1可达73.38%！

目录论文基本信息引言模型模态编码器ImplicitRelationReasoning模块与MLM任务SimilarityDistributionMatching结果论文基本信息论文：Cross-ModalImplicitRelationReasoningandAligningforText-to-ImagePersonRetrieval代码：https://github.com/anosorae/IRRA这是今年CVPR2023的工作，也是目前在语言行人检索领域实现SOTA性能的模型，模型整体并不复杂性能却很好，代码也做了开源，是一个非常好的工作。下面将对该文章进行简要的梳理与记录，还不太了解

粒度对齐 xff0c xff0 xff 计算机视觉人工智能深度学习

用SAM做零样本视频对象分割！港科大等开源首个「稀疏点传播」方法SAM-PT，性能直追有监督SOTA

视频分割是自动驾驶、机器人技术、视频编辑等应用场景的基础技术，但目前的方法在零样本学习设置下，或是预测未见过的样本时，会出现性能不一致等问题。今年4月，MetaAI开源了一个非常强大的图像分割基础模型SegmentAnythingModel（SAM），经过1100万张图像训练后，SAM具有非常强的泛化性能，并可以应用于各种下游应用。不过，虽然SAM屠榜了整个图像分割领域，但它并不适用于视频分割任务。图片最近，来自苏黎世联邦理工学院、香港科技大学、瑞士洛桑联邦理工学院的研究人员发布了SAM-PT模型，利用稳健和稀疏的点选择（pointselection）和传播（propagation）技术来生成

稀疏开源 span text-align style 人工智能新闻图像模型

Yolov5涨点神器：RIFormerBlock助力检测｜CVPR2023｜RIFormer：无需TokenMixer也能达成SOTA性能的极简ViT架构

目录 1.RIFormer介绍2. RIFormer引入到yolov52.1在models/backbone/RIFormer.py新建 2.2yolo修改2.3 yolov5s_C2f_RIFormerBlock.yaml

能达神器 RIFormer margin-left margin YOLO 计算机视觉人工智能目标检测深度学习

3 4 567 8 9