多模_草庐IT

node.js - 通过多模块方法访问 mongodb/mongoskin 的效率？

我正在开发一个提供RESTapi的快速应用程序，它通过mongoskin使用mongodb。我想要一个将路由与数据库访问分开的层。我看过一个通过创建模块文件来创建数据库桥的示例，示例models/profiles.js:varmongo=require('mongoskin'),db=mongo.db('localhost:27017/profiler'),profs=db.collection('profiles');exports.examplefunction=function(info,cb){//codethatacesstheprofscollectionanddotheq

微软出品，166页深度解读，多模态GPT-4V

多模态王炸大模型GPT-4V，166页“说明书”重磅发布！而且还是微软团队出品。什么样的论文，能写出166页？不仅详细测评了GPT-4V在十大任务上的表现，从基础的图像识别、到复杂的逻辑推理都有展示；还传授了一整套多模态大模型提示词使用技巧——手把手教你从0到1学会写提示词，回答专业程度一看就懂，属实是把GPT-4V的使用门槛打到不存在了。值得一提的是，这篇论文的作者也是“全华班”，7名作者全部是华人，领衔的是一位在微软工作了17年的女性首席研究经理。在166页报告发布前，他们还参与了OpenAI最新DALL·E3的研究，对这个领域了解颇深。相比OpenAI的18页GPT-4V论文，这篇166

为何GPT-4P容易受到多模态提示注入图像攻击？

OpenAI新的GPT-4V版本支持图像上传后，带来了一条全新的攻击途径，使大型语言模型（LLM）容易受到多模态注入图像攻击。攻击者可以在图像中嵌入命令、恶意脚本和代码，随后模型会遵从行事。多模态提示注入图像攻击可以泄露数据、重定向查询、生成错误信息，并执行更复杂的脚本以重新定义LLM如何解释数据。它们可以改变LLM的用途，使其忽略之前设置的安全护栏，执行可能危及企业组织的命令，从而构成从欺诈到操作破坏的各种威胁。虽然所有已采用LLM作为工作流程一部分的企业都面临险境，但那些依赖LLM来分析和分类图像作为其业务核心一部分的企业面临最大的风险。使用各种技术的攻击者可以迅速改变解释和分类图像的方式

多模态大模型幻觉降低30%！中科大等提出首个幻觉修正架构「Woodpecker」啄木鸟

视觉幻觉是常见于多模态大语言模型（MultimodalLargeLanguageModels,MLLMs）的一个典型问题。简单来说就是：模型输出的描述与图片内容不相符。下图中体现了两种幻觉，红色部分错误地描述了狗的颜色（属性幻觉），蓝色部分描述了图中实际不存在的事物（目标幻觉）。幻觉对模型的可靠性产生了显著的负面影响，因此引起了许多研究者的重视。以往的方法主要集中在MLLM本身，通过在训练数据以及架构上进行改进，以重新微调的方式训练一个新的MLLM。然而，这种方式会造成较大的数据构建和训练开销，且较难推广到各种已有的MLLMs。近日，来自中科大等机构的研究者们提出了一种免训练的即插即用的通用架

[论文阅读]VirConv(KITTI SOTA 2023.10.17)——用于多模态 3D 目标检测的虚拟稀疏卷积

VirConvVirtualSparseConvolutionforMultimodal3DObjectDetection用于多模态3D目标检测的虚拟稀疏卷积论文网址：VirConv论文代码：VirConv简读论文这篇论文提出了一个称为VirConv的操作符,用于基于虚拟点的多模态3D对象检测。主要的贡献和创新点包括:提出了StochasticVoxelDiscard(StVD)机制,用于加速网络并提高密度鲁棒性。StVD通过丢弃大量冗余的附近体素来减轻计算量,同时保留远处的体素。这可以大大加速检测速度。提出了Noise-ResistantSubmanifoldConvolution(NRCo

多模态卷进车路协同 | V2VFormer++：首个多模态V2V框架问世！

本文经自动驾驶之心公众号授权转载，转载请联系出处。笔者的个人理解最近出现的多车辆协作感知旨在促进联网自动车辆（CAV）的远距离和大规模感知能力。尽管如此，人们付出了巨大的努力将协同感知制定为仅LiDAR的3D检测范例，而忽略了密集图像的重要性和补充。在这项工作中，我们构建了第一个多模态车对车协同感知框架，称为V2VFormer++，其中单个摄像头-LiDAR表示与鸟瞰(BEV)空间的动态通道融合(DCF)相结合，并且来自相邻车辆的以自我为中心的BEV地图由全局-局部transformer模块聚合。具体来说，开发了采用MLP设计的通道token混合器(CTM)，以捕获相邻CAV之间的全局响应，并

GraphAlign：通过图匹配增强多模态3D目标检测的准确特征对齐

本文经自动驾驶之心公众号授权转载，转载请联系出处。原标题：GraphAlign:EnhancingAccurateFeatureAlignmentbyGraphmatchingforMulti-Modal3DObjectDetection论文链接:https://arxiv.org/pdf/2310.08261.pdf作者单位：北京交通大学河北科技大学清华大学论文思路：LiDAR和camera是自动驾驶中3D目标检测的互补传感器。然而，探索点云和图像之间的非自然交互(unnaturalinteraction)具有挑战性，关键因素是如何进行异构模态的特征对齐。目前，许多方法仅通过投影校准来实现特

用于自动驾驶赛车的多模态传感器融合和目标跟踪

本文经自动驾驶之心公众号授权转载，转载请联系出处。原标题：Multi-ModalSensorFusionandObjectTrackingforAutonomousRacing论文链接：https://arxiv.org/pdf/2310.08114.pdf代码链接：https://github.com/TUMFTM/FusionTracking作者单位：慕尼黑工业大学期刊：IEEETRANSACTIONSONINTELLIGENTVEHICLES论文思路：对周围目标的可靠检测和跟踪是自动驾驶车辆综合运动预测和规划必不可少的。由于单个传感器的局限性，需要多传感器模态融合来提高整体检测能力。此外

HiLM-D：自动驾驶多模态大语言模型玩出花了

本文经自动驾驶之心公众号授权转载，转载请联系出处。笔者个人的一些思考不得不说，最近大模型在学术界火起来了，基于图文匹配的CLIP预训练模型成为近年来在多模态研究领域的经典之作。除此之外，大语言模型的蓬勃发展也进一步为多模态带来了性能提升。自动驾驶领域也有类似的数据（图像/视频+caption）用于车辆行为分析如BDD-X，最近也有新的工作直接构建自动驾驶场景下的QA，如DQA和DRIVEGPT4中使用chatgpt扩展的BDD-X数据集，这些工作都为端到端自动驾驶技术提供了可能；然而，现有多模态范式中输入尺度较小（224x224），识别精度受限，因此在多模态的基础上提出了高分辨率分支增强目标很

让大模型看图比打字管用！NeurIPS 2023新研究提出多模态查询方法，准确率提升7.8%

大模型“识图”能力都这么强了，为啥还老找错东西？例如，把长得不太像的蝙蝠和拍子搞混，又或是认不出一些数据集中的稀有鱼类……这是因为，我们让大模型“找东西”时，往往输入的是文本。如果描述有歧义或太偏门，像是“bat”（蝙蝠还是拍子？）或“魔鳉”（Cyprinodondiabolis），AI就会大为困惑。这就导致用大模型做目标检测、尤其是开放世界（未知场景）目标检测任务时，效果往往没有想象中那么好。现在，一篇被NeurIPS2023收录的论文，终于解决了这个问题。论文提出了一种基于多模态查询的目标检测方法MQ-Det，只需要给输入加上一个图片示例，就能让大模型找东西的准确率大幅提升。在基准检测数据