SOTA_草庐IT

像搭乐高一样做数学定理证明题，GPT-3.5证明成功率达新SOTA

背景作为长链条严格推理的典范，数学推理被认为是衡量语言模型推理能力的重要基准，GSM8K和MATH等数学文字问题（mathwordproblem）数据集被广泛应用于语言模型的测评和比较中。事实上，数学作为一项科学研究并不仅仅包括计算具体实例，还包括推演一般性的定理。不同于简单的计算问题仅仅需要验证最终的结果与答案是否匹配，定理的证明要求对数学概念拥有更严格的理解，而这种定理证明的正确性是难以通过直接的自然语言生成和判别或是简单的程序调用就能够完成的。正如自然语言处理希望能够使用计算机直接对人类语言进行数字化计算一样，对于数学对象的数字化也有着数十年的探索，甚至现代形式逻辑的诞生在很大程度上也正

更高清写实的人体生成模型HyperHuman来了，基于隐式结构扩散，刷新多项SOTA

论文地址:https://arxiv.org/pdf/2310.08579.pdfGithub地址:https://github.com/snap-research/HyperHuman1.研究背景与动机随着扩散模型的兴起，一些典型的模型例如StableDiffusion,DALL-E2等在文本生成图像任务上展现了令人震撼的能力。但一个明显的不足是，这些模型在文本生成人体图片的任务上表现得不尽如人意，甚至很难生成具有合理结构或自然姿态的人体（例如正确的四肢数目和符合人体物理结构的几何拓扑）。背后的主要原因在于：自然环境下的人体是铰接的，且包含刚性和非刚性的形变；生成高质量的人体图片需要文本难以

[论文阅读]VirConv(KITTI SOTA 2023.10.17)——用于多模态 3D 目标检测的虚拟稀疏卷积

VirConvVirtualSparseConvolutionforMultimodal3DObjectDetection用于多模态3D目标检测的虚拟稀疏卷积论文网址：VirConv论文代码：VirConv简读论文这篇论文提出了一个称为VirConv的操作符,用于基于虚拟点的多模态3D对象检测。主要的贡献和创新点包括:提出了StochasticVoxelDiscard(StVD)机制,用于加速网络并提高密度鲁棒性。StVD通过丢弃大量冗余的附近体素来减轻计算量,同时保留远处的体素。这可以大大加速检测速度。提出了Noise-ResistantSubmanifoldConvolution(NRCo

3D视觉感知新SOTA BEVFormer复现nuscenes数据集测试demo

0写在前面分享最近在BEV感知方面的工作，欢迎自动驾驶同行交流学习，助力自动驾驶早日落地。1.概述对于自动驾驶而言，BEV（鸟瞰图）下的目标检测是一项十分重要的任务。尽管这项任务已经吸引了大量的研究投入，但灵活处理自动驾驶车辆上安装的任意相机配置（单个或多个摄像头），仍旧是一个不小的挑战。为此提出BEVFormer，利用了Transformer强大的特征提取能力以及Timestamp结构的时序特征的查询映射能力，在时间维度和空间维度对两个模态的特征信息进行聚合，增强整体感知系统的检测效果。论文连接：https://arxiv.org/pdf/2203.17270v1.pdf代码链接：GitHu

碾压Llama2！微软13亿参数phi-1.5，单个A100训练，刷新SOTA

模型越大，能力越强吗？然而，事实并非如此。近日，微软研究人员推出了一个模型phi-1.5，仅有13亿参数。论文地址：https://arxiv.org/pdf/2309.05463.pdf具体来说，在常识推理、语言技能，phi-1.5表现与其他模型相当。同时在多步推理上，远远超过其他大模型。phi-1.5展现出了许多大模型具备的能力，能够进行「一步一步地思考」，或者进行一些基本上下文学习。小模型，大用处当前，大模型的主要改进似乎主要与参数规模挂钩，最强大的模型接近万亿参数，训练的数据也需要万亿个token。那么，随着一个问题就来了：模型参数越大，性能就越高吗？这不仅仅是一个学术问题，回答这个问

SurroundOcc：环视三维占据栅格新SOTA！

本文经自动驾驶之心公众号授权转载，转载请联系出处。在这个工作中，我们通过多帧点云构建了稠密占据栅格数据集，并设计了基于transformer的2D-3DUnet结构的三维占据栅格网络。很荣幸地，我们的文章被ICCV2023收录，目前项目代码已开源，欢迎大家试用。arXiv：https://arxiv.org/pdf/2303.09551.pdfCode：https://github.com/weiyithu/SurroundOcc主页：https://weiyithu.github.io/SurroundOcc/最近一直在疯狂找工作，没有闲下来写，正好最近提交了camera-ready，作为一

用于激光雷达点云自监督预训练SOTA！

本文经自动驾驶之心公众号授权转载，转载请联系出处。论文思路：maskedautoencoding已经成为文本、图像和最近的点云的Transformer模型的一个成功的预训练范例。原始的汽车数据集适合进行自监督的预训练，因为与3D目标检测(OD)等任务的标注相比，它们的收集成本通常较低。然而，针对点云的maskedautoencoders的开发仅仅集中在合成和室内数据上。因此，现有的方法已经将它们的表示和模型定制为小而稠密的点云，具有均匀的点密度。在这项工作中，本文研究了在汽车设置中对点云进行的maskedautoencoding，这些点云是稀疏的，并且在同一场景中，点云的密度在不同的物体之间可

ChatGPT is not all you need，一文看尽SOTA生成式AI模型：6大公司9大类别21个模型全回顾（一）

文章目录ChatGPTisnotallyouneed，一文看尽SOTA生成式AI模型：6大公司9大类别21个模型全回顾（一）Text-to-Image模型DALL-E2IMAGENStableDiffusionMuseText-to-3D模型DreamfusionMagic3DChatGPTisnotallyouneed，一文看尽SOTA生成式AI模型：6大公司9大类别21个模型全回顾（一）近两个月我们都被ChatGPT刷屏，说它的发展速度犹如坐火箭也毫不夸张。凭借其出色的性能，自从StableDiffusion开源和ChatGPT开放接口后，业界对生成式模型更加热情了。然而，生成式SOTA模

实测学而思MathGPT大模型：中小学数学解题正确率有望在全球范围内创造新 SOTA

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。国内首个数学大模型MathGPT开放内测了，不上手试试怎么行？第一印象上，最明显的就是：啪的一下，很快啊~题目识别到对话框，结果不光答案准确，还就给出了具体的公式步骤、详细解析。并且支持公式输入和修改。这着实是数理爱好者福音了！要知道市面上GPT-4在内的通用大模型，都无法实现这一点。作为千亿参数级别首个数学专用大模型，放在全球范围内也是少数，背后则是来自国内教育行业20年深耕的学而思。另外内测据说还只是开始，因为之前就已经透露，将于年内推出基于该自研大模型的产品级应用。所以这款垂直数学大模型究竟怎么样，完整上手“体验

lama-cleaner：基于SOTA AI 模型Stable Diffusion驱动的图像修复工具

介绍由SOTAAI模型提供支持的图像修复工具。从照片中删除任何不需要的物体、缺陷、人物，或擦除并替换（由StableDiffusion驱动）照片上的任何东西。特征1.多种SOTAAI模型擦除模型：LaMa/LDM/ZITS/MAT/FcF/Manga擦除和替换模型：稳定扩散/绘制示例2.后期处理插件RemoveBG：删除图像背景RealESRGAN：超分辨率GFPGAN：面部恢复RestoreFormer:脸部修复SegmentAnything：准确快速的交互式对象分割快速上手#InordertousetheGPU,installcudaversionofpytorchfirst.#pipin