p4v_草庐IT

UNC斯坦福等曝光GPT-4V意外漏洞，被人类哄骗数出8个葫芦娃！LeCun和Jim Fan震惊了

GPT-4V诞生后，惊艳的多模态能力让网友惊呼连连，连OpenAI总裁GregBrockman都不断在X上安利。不过，最近大家发现，只要打乱布局，GPT-4V就会被曾经解决的著名计算机视觉难题——「吉娃娃还是松饼」，再次难倒……UCSC教授XinEricWang表示，如果将经典的4x4网格构图重新布局，GPT-4V就会给出错误的描述——「共有8张特写图片，分两排排列，每排4张图」。图片如果问它第一行第三个图是什么，它会说是松饼……吉娃娃：你礼貌吗？此外，UCSB教授WilliamWang也发现，当一堆图片糊到脸上时，GPT-4V就懵了，无法分清到底哪张图是「贵宾犬」，哪张图是「炸鸡腿」。图片学

178页，128个案例，GPT-4V医疗领域全面测评，离临床应用与实际决策尚有距离

在大型基础模型的推动下，人工智能的发展近来取得了巨大进步，尤其是OpenAI的GPT-4，其在问答、知识方面展现出的强大能力点亮了AI领域的尤里卡时刻，引起了公众的普遍关注。GPT-4V(ision)是OpenAI最新的多模态基础模型。相较于GPT-4，它增加了图像与语音的输入能力。该研究则旨在通过案例分析评估GPT-4V(ision)在多模态医疗诊断领域的性能，一共展现并分析共计了128（92个放射学评估案例，20个病理学评估案例以及16个定位案例）个案例共计277张图像的GPT-4V问答实例（注：本文不会涉及案例展示，请参阅原论文查看具体的案例展示与分析）。ArXiv链接：https://

【P4】JMeter 原生录制方式——HTTP代理服务器（HTTP(S) Test Script Recorder）

文章目录一、HTTP代理服务器（HTTP(S)TestScriptRecorder）参数说明二、准备工作三、原生录制方式——HTTP3.1、设计说明3.2、测试计划设计四、原生录制方式——HTTPS4.1、设计说明4.2、测试计划设计五、HTTP代理服务器主要参数说明5.1、目标控制器5.2、分组：在组间添加分割5.3、分组：每个组放入一个新的控制器5.4、分组：只存储每个组的第一个样本5.5、分组：将每个组放入一个新的事务控制器中5.6、记录HTTP信息头5.7、Namingscheme：Transactionname一、HTTP代理服务器（HTTP(S)TestScriptRecorder

GPT-4被吹的神乎其神，作为具备视觉能力的GPT-4版本——GPT-4V，也被大众寄于了厚望。但如果告诉你，初中生都知道的勾股定理，只适用于直角三角形。然而GPT-4V却自信将其用于钝角三角形中计算斜边长度。还有更离谱的，GPT-4V直接犯了致命的安全错误，竟然认为红灯可以行驶。这到底是怎么回事呢？马里兰大学的研究团队在探索过程中发现了这些问题，并在此基础上提出了两种主要的错误类型：语言幻觉和视觉错觉，以此来阐释这些错误的原因。图片论文链接：https://arxiv.org/abs/2310.14566项目主页：https://github.com/tianyi-lab/Hallusion

微软出品，166页深度解读，多模态GPT-4V

多模态王炸大模型GPT-4V，166页“说明书”重磅发布！而且还是微软团队出品。什么样的论文，能写出166页？不仅详细测评了GPT-4V在十大任务上的表现，从基础的图像识别、到复杂的逻辑推理都有展示；还传授了一整套多模态大模型提示词使用技巧——手把手教你从0到1学会写提示词，回答专业程度一看就懂，属实是把GPT-4V的使用门槛打到不存在了。值得一提的是，这篇论文的作者也是“全华班”，7名作者全部是华人，领衔的是一位在微软工作了17年的女性首席研究经理。在166页报告发布前，他们还参与了OpenAI最新DALL·E3的研究，对这个领域了解颇深。相比OpenAI的18页GPT-4V论文，这篇166

在视觉提示中加入「标记」，微软等让GPT-4V看的更准、分的更细

最近一段时间，我们见证了大型语言模型（LLM）的显著进步。特别是，生成式预训练Transformer或GPT的发布引领了业界和学术界的多项突破。自GPT-4发布以来，大型多模态模型(LMM)引起了研究界越来越多的兴趣，许多工作致力于构建多模态GPT-4。近日，GPT-4V(ision)由于出色的多模态感知和推理能力得到了大家格外的关注。然而，尽管GPT-4V具有前所未有的视觉语言理解能力，但其细粒度visualgrounding（输入是图片和对应的物体描述，输出是描述物体的box）能力相对较弱，或者尚未发挥出来。举例来说，当用户询问下图中「放置在右边笔记本电脑的左边是什么物体？」GPT-4V

清华团队攻破GPT-4V、谷歌Bard等模型，商用多模态大模型也脆弱？

GPT-4近日开放了视觉模态（GPT-4V）。以GPT-4V、谷歌Bard为代表的多模态大语言模型(MultimodalLargeLanguageModels,MLLMs)将文本和视觉等模态相结合，在图像描述、视觉推理等各种多模态任务中展现出了优异的性能。然而，视觉模型长久以来存在对抗鲁棒性差的问题，而引入视觉模态的MLLMs在实际应用中仍然存在这一安全风险。最近一些针对开源MLLMs的研究已经证明了该漏洞的存在，但更具挑战性的非开源商用MLLMs的对抗鲁棒性还少有人探索。为了更好地理解商用MLLMs的漏洞，清华朱军教授领衔的人工智能基础理论创新团队围绕商用MLLM的对抗鲁棒性展开了研究。尽管

GPT-4V多模态能力惊人！公式截图直出代码，「龙与魔法世界」瞬间生成，OpenAI总裁激动转发

最近，GPT-4一直在默默更新，加入了多模态，语音交互等功能。但是与年初OpenAI每次发布的新功能，都能引得外界一阵惊呼的阵仗相比，现在GPT-4的声量似乎小了很多。不知道是不是担心自己产品发布太过于耀眼，导致监管和官司不断找上门，OpenAI除了3周前更新了文生图模型DALL-E3外，在发布了GPT-4之后的7个月内，官方没有公开发布任何新的产品和功能。但是OpenAI总裁GregBrockman自己却在X（推特）上，不断转发利用新版的GPT-4来实现的各种天马行空的功能。利用GPT-4V的多模态能力和代码能力，直接把一个写在书上的数学公式转化成一段Python代码。而利用GPT-4刚更新

假期AI新闻热点：亚运会Al技术亮点；微软GPT-4V论文精读；Perplexity推出pplx-api；DALL-E 3多渠道测评 | ShowMeAI日报

👀日报&周刊合集|🎡生产力工具与行业应用大全|🧡点赞关注评论拜托啦！🔥科技感拉满，第19届杭州亚运会中的Al技术亮点八年筹备，杭州第19届亚运会开幕式于9月23日晚隆重举行，为全球观众带来了一场前所未有的数字科技盛宴。以下盘点了7项亚运会用到的AI技术，详解介绍可点击放大上方图片，非常期待10月8日的闭幕式呀：数字人火炬手：开启全球首个数字点火仪式无介质全息AI机器人：全球首款互动3D双威亚:空中的视觉盛宴杭州亚运会总指挥部AI裁判评分亚运元宇宙真人级全息直播亭🔥ARC浏览器发布重磅AI功能，彻底改变网页浏览体验https://arc.net/maxArc是一款基于人工智能的浏览器，使用了Op

p4v