草庐IT

一句话精准视频片段定位!清华新方法拿下SOTA|已开源

只需一句话描述,就能在一大段视频中定位到对应片段!比如描述“一个人一边下楼梯一边喝水”,通过视频画面和脚步声的匹配,新方法一下子就能揪出对应起止时间戳:就连“大笑”这种语义难理解型的,也能准确定位:方法名为自适应双分支促进网络(ADPN),由清华大学研究团队提出。具体来说,ADPN是用来完成一个叫做视频片段定位(TemporalSentenceGrounding,TSG)的视觉-语言跨模态任务,也就是根据查询文本从视频中定位到相关片段。ADPN的特点在于能够高效利用视频中视觉和音频模态的一致性与互补性来增强视频片段定位性能。相较其他利用音频的TSG工作PMI-LOC、UMT,ADPN方法从音频

Qwen最新开源14B,同级别SOTA,github页面

🤗 HuggingFace  |  🤖 魔搭社区  |  📑 论文   |  🖥️ Demo微信  |  钉钉  |  Discord   Qwen-ChatQwen-Chat(Int4)Qwen7B🤖 🤗🤖 🤗🤖 🤗14B🤖 🤗🤖 🤗🤖 🤗我们开源了Qwen(通义千问)系列工作,当前开源模型的参数规模为70亿(7B)和140亿(14B)。本次开源包括基础模型Qwen,即Qwen-7B和Qwen-14B,以及对话模型Qwen-Chat,即Qwen-7B-Chat和Qwen-14B-Chat。模型链接在表格中,请点击了解详情。同时,我们公开了我们的**技术报告**,请点击上方论文链接查看。当前基

数据闭环!DrivingGaussian:逼真环视数据,驾驶场景重建SOTA

本文经自动驾驶之心公众号授权转载,转载请联系出处。写在前面&笔者的个人理解北大王选计算机研究所的最新工作,提出了DrivingGaussian,一个高效、有效的动态自动驾驶场景框架。对于具有移动目标的复杂场景,首先使用增量静态3D高斯对整个场景的静态背景进行顺序和渐进的建模。然后利用复合动态高斯图来处理多个移动目标,分别重建每个目标,并恢复它们在场景中的准确位置和遮挡关系。我们进一步使用激光雷达先验进行Gaussiansplatting,以重建具有更大细节的场景并保持全景一致性。DrivingGaussian在驱动场景重建方面优于现有方法,能够实现高保真度和多摄像机一致性的真实感环视视图合成。

【计算机视觉 | 异常检测】顶会精选!工业异常检测最新SOTA方案分享!(下)

文章目录十、WinCLIP:Zero-/Few-ShotAnomalyClassificationandSegmentation十一、ExplicitBoundaryGuidedSemi-Push-PullContrastiveLearningforSupervisedAnomalyDetection十二、RevisitingReverseDistillationforAnomalyDetection十三、CollaborativeDiscrepancyOptimizationforReliableImageAnomalyLocalization十四、PushingtheLimitsofFew

DrivingGaussian:逼真环视数据,驾驶场景重建SOTA

本文经自动驾驶之心公众号授权转载,转载请联系出处。原标题:DrivingGaussian:CompositeGaussianSplattingforSurroundingDynamicAutonomousDrivingScenes论文链接:https://arxiv.org/pdf/2312.07920.pdf代码链接:https://pkuvdig.github.io/DrivingGaussian/作者单位:北京大学GoogleResearch加州大学默塞德分校论文思路:本文提出DrivingGaussian,这是一个针对动态自动驾驶场景的高效率和高效益的框架。对于具有移动物体的复杂场景,

CVPR2023 即插即用系列 | 一种高效轻量的自注意力机制助力图像恢复网络问鼎SOTA!

Title:EfficientandExplicitModellingofImageHierarchiesforImageRestorationPDF:https://arxiv.org/pdf/2303.00748Code:https://github.com/ofsoundof/GRL-Image-Restoration.git导读全局,区域和局部范围的特征可以很好地被神经网络用于图像恢复任务,本文提出了一种基于锚点Anchored的条纹自注意力机制用于实现全局范围依赖性建模,它在自注意力的空间和时间复杂度以及超越区域范围的建模能力之间取得了良好的平衡;其次提出了一种新的Transform

ESimCSE:无监督语义新SOTA,引入动量对比学习扩展负样本,效果远超SimCSE

作者|对白出品|对白的算法屋编者寄语:本文看完,相信你会掌握这个无监督语义新SOTA模型ESimCSE。从论文标题中可以看出,应该是对4月份丹琦女神发表的新作SimCSE的增强版(Enhance),并且也用到了对比学习来构建正负样本,那么效果是否优于SimCSE呢?抱着这个好奇的心态,于是完整的读了一遍该论文。好家伙!在语义文本相似性(STS)任务上效果竟然还真的优于BERTbase版的SimCSE有2个点(Spearman相关系数),并且提出了两大优化方法,解决了SimCSE遗留的两个问题:1、SimCSE通过dropout构建的正例对包含相同长度的信息(原因:Transformer的Pos

首次超过70% mAP!GeMap:局部高精地图SOTA再次刷新

本文经自动驾驶之心公众号授权转载,转载请联系出处。写在前面&笔者的个人理解实时根据传感器数据构建向量化高精地图对于预测和规划等下游任务至关重要,可以有效弥补离线高精地图实时性差的缺点。随着深度学习的发展,在线向量化高精地图构建逐渐兴起,代表性的工作如HDMapNet,MapTR等相继涌现。然而,现有的在线向量化高精地图构建方法缺乏对地图元素几何性质(包括元素的形状,垂直、平行等几何关系)的探索。向量化高精地图的几何性质向量化高精地图对道路上的元素进行了高度抽象,将每一个地图元素表示为二维点序列。而城市道路的设计具有特定的规范,例如,人行横道在多数情况下表现为方正的矩形或平行四边形;在不涉及分流

何恺明新作:简单框架达成无条件图像生成新SOTA!与MIT合作完成

大佬何恺明还未正式入职MIT,但和MIT的第一篇合作研究已经出来了:他和MIT师生一起开发了一个自条件图像生成框架,名叫RCG(代码已开源)。这个框架结构非常简单但效果拔群,直接在ImageNet-1K数据集上实现了无条件图像生成的新SOTA。它生成的图像不需要任何人类注释(也就是提示词、类标签什么的),就能做到既保真又具有多样性。这样的它不仅显著提高了无条件图像生成的水平,还能跟当前最好的条件生成方法一较高下。用何恺明团队自己的话来说:有条件和无条件生成任务之间长期存在的性能差距,终于在这一刻被弥补了。那么,它究竟是如何做到的呢?类似自监督学习的自条件生成首先,所谓无条件生成,就是模型在没有

CVPR2023 | 用于多模态3D目标检测的虚拟稀疏卷积(KITTI SOTA)

点击下方卡片,关注“自动驾驶之心”公众号ADAS巨卷干货,即可获取点击进入→自动驾驶之心【3D目标检测】技术交流群后台回复【3D检测综述】获取最新基于点云/BEV/图像的3D检测综述!最近,通过深度补全将RGB图像和激光雷达数据无缝融合的基于虚拟/pseudo点的3D目标检测受到了极大的关注。然而,从图像生成的虚拟点非常密集,在检测过程中引入了大量的冗余计算,与此同时,深度补全不准确带来的噪声显著降低了检测精度。本文提出了一种快速有效的主干,称为VirConvNet,基于新的算子VirConv(虚拟稀疏卷积),用于基于虚拟点的3D目标检测。VirConv由两个关键设计组成:StVD(随机体素d