草庐IT

多模态

全部标签

微软出品,166页深度解读,多模态GPT-4V

多模态王炸大模型GPT-4V,166页“说明书”重磅发布!而且还是微软团队出品。什么样的论文,能写出166页?不仅详细测评了GPT-4V在十大任务上的表现,从基础的图像识别、到复杂的逻辑推理都有展示;还传授了一整套多模态大模型提示词使用技巧——手把手教你从0到1学会写提示词,回答专业程度一看就懂,属实是把GPT-4V的使用门槛打到不存在了。值得一提的是,这篇论文的作者也是“全华班”,7名作者全部是华人,领衔的是一位在微软工作了17年的女性首席研究经理。在166页报告发布前,他们还参与了OpenAI最新DALL·E3的研究,对这个领域了解颇深。相比OpenAI的18页GPT-4V论文,这篇166

为何GPT-4P容易受到多模态提示注入图像攻击?

OpenAI新的GPT-4V版本支持图像上传后,带来了一条全新的攻击途径,使大型语言模型(LLM)容易受到多模态注入图像攻击。攻击者可以在图像中嵌入命令、恶意脚本和代码,随后模型会遵从行事。多模态提示注入图像攻击可以泄露数据、重定向查询、生成错误信息,并执行更复杂的脚本以重新定义LLM如何解释数据。它们可以改变LLM的用途,使其忽略之前设置的安全护栏,执行可能危及企业组织的命令,从而构成从欺诈到操作破坏的各种威胁。虽然所有已采用LLM作为工作流程一部分的企业都面临险境,但那些依赖LLM来分析和分类图像作为其业务核心一部分的企业面临最大的风险。使用各种技术的攻击者可以迅速改变解释和分类图像的方式

多模态大模型幻觉降低30%!中科大等提出首个幻觉修正架构「Woodpecker」啄木鸟

视觉幻觉是常见于多模态大语言模型(MultimodalLargeLanguageModels,MLLMs)的一个典型问题。简单来说就是:模型输出的描述与图片内容不相符。下图中体现了两种幻觉,红色部分错误地描述了狗的颜色(属性幻觉),蓝色部分描述了图中实际不存在的事物(目标幻觉)。幻觉对模型的可靠性产生了显著的负面影响,因此引起了许多研究者的重视。以往的方法主要集中在MLLM本身,通过在训练数据以及架构上进行改进,以重新微调的方式训练一个新的MLLM。然而,这种方式会造成较大的数据构建和训练开销,且较难推广到各种已有的MLLMs。近日,来自中科大等机构的研究者们提出了一种免训练的即插即用的通用架

使用Python与Windows模态对话框进行交互

我正在使用Selenium打开Web浏览器(特别是Chrome),以登录到帐户。当我运行脚本时,有一个模态对话框,让用户知道有一个带有管理权限的错误。用户单击“好”后,其余的脚本就不会出现问题。问题是我需要此脚本自动运行。有没有办法使用Python单击“确定”按钮?警报不在Chrome内部,因此.switch_to_alert()无用。我找到了这个问题以前问过,但回应清楚地表明它不能完成硒,但是可以用另一种方式做吗?我也找到了这个来源在使用CTYPES处理时,我无法安装CTYPE。任何提示/帮助将不胜感激!看答案我进行了进一步的研究,看来Python无法访问系统模态对话框。我能够通过获得较旧版

[论文阅读]VirConv(KITTI SOTA 2023.10.17)——用于多模态 3D 目标检测的虚拟稀疏卷积

VirConvVirtualSparseConvolutionforMultimodal3DObjectDetection用于多模态3D目标检测的虚拟稀疏卷积论文网址:VirConv论文代码:VirConv简读论文这篇论文提出了一个称为VirConv的操作符,用于基于虚拟点的多模态3D对象检测。主要的贡献和创新点包括:提出了StochasticVoxelDiscard(StVD)机制,用于加速网络并提高密度鲁棒性。StVD通过丢弃大量冗余的附近体素来减轻计算量,同时保留远处的体素。这可以大大加速检测速度。提出了Noise-ResistantSubmanifoldConvolution(NRCo

多模态卷进车路协同 | V2VFormer++:首个多模态V2V框架问世!

本文经自动驾驶之心公众号授权转载,转载请联系出处。笔者的个人理解最近出现的多车辆协作感知旨在促进联网自动车辆(CAV)的远距离和大规模感知能力。尽管如此,人们付出了巨大的努力将协同感知制定为仅LiDAR的3D检测范例,而忽略了密集图像的重要性和补充。在这项工作中,我们构建了第一个多模态车对车协同感知框架,称为V2VFormer++,其中单个摄像头-LiDAR表示与鸟瞰(BEV)空间的动态通道融合(DCF)相结合,并且来自相邻车辆的以自我为中心的BEV地图由全局-局部transformer模块聚合。具体来说,开发了采用MLP设计的通道token混合器(CTM),以捕获相邻CAV之间的全局响应,并

GraphAlign:通过图匹配增强多模态3D目标检测的准确特征对齐

本文经自动驾驶之心公众号授权转载,转载请联系出处。原标题:GraphAlign:EnhancingAccurateFeatureAlignmentbyGraphmatchingforMulti-Modal3DObjectDetection论文链接:https://arxiv.org/pdf/2310.08261.pdf作者单位:北京交通大学河北科技大学清华大学论文思路:LiDAR和camera是自动驾驶中3D目标检测的互补传感器。然而,探索点云和图像之间的非自然交互(unnaturalinteraction)具有挑战性,关键因素是如何进行异构模态的特征对齐。目前,许多方法仅通过投影校准来实现特

用于自动驾驶赛车的多模态传感器融合和目标跟踪

本文经自动驾驶之心公众号授权转载,转载请联系出处。原标题:Multi-ModalSensorFusionandObjectTrackingforAutonomousRacing论文链接:https://arxiv.org/pdf/2310.08114.pdf代码链接:https://github.com/TUMFTM/FusionTracking作者单位:慕尼黑工业大学期刊:IEEETRANSACTIONSONINTELLIGENTVEHICLES论文思路:对周围目标的可靠检测和跟踪是自动驾驶车辆综合运动预测和规划必不可少的。由于单个传感器的局限性,需要多传感器模态融合来提高整体检测能力。此外

angularjs -uiview->单击页脚中的链接时打开模态

我使用angularjs,并且有以下模板_我的页脚中的一个跨度看起来像这样:VersionSomeText没有针对页脚的控制器或服务。我的目的是,当我单击“一些文本”时,应该打开模态,但我不知道将代码放在哪里?看答案如果您已经有了打开模式的代码,建议您为其创建一个控制器。我通常使用“MainController”包装整个应用程序。这样,我可以将其用于头部元素,页脚等。{{main.myTitle}}Clickhere!

HiLM-D:自动驾驶多模态大语言模型玩出花了

本文经自动驾驶之心公众号授权转载,转载请联系出处。笔者个人的一些思考不得不说,最近大模型在学术界火起来了,基于图文匹配的CLIP预训练模型成为近年来在多模态研究领域的经典之作。除此之外,大语言模型的蓬勃发展也进一步为多模态带来了性能提升。自动驾驶领域也有类似的数据(图像/视频+caption)用于车辆行为分析如BDD-X,最近也有新的工作直接构建自动驾驶场景下的QA,如DQA和DRIVEGPT4中使用chatgpt扩展的BDD-X数据集,这些工作都为端到端自动驾驶技术提供了可能;然而,现有多模态范式中输入尺度较小(224x224),识别精度受限,因此在多模态的基础上提出了高分辨率分支增强目标很