草庐IT

UNC斯坦福等曝光GPT-4V意外漏洞,被人类哄骗数出8个葫芦娃!LeCun和Jim Fan震惊了

GPT-4V诞生后,惊艳的多模态能力让网友惊呼连连,连OpenAI总裁GregBrockman都不断在X上安利。不过,最近大家发现,只要打乱布局,GPT-4V就会被曾经解决的著名计算机视觉难题——「吉娃娃还是松饼」,再次难倒……UCSC教授XinEricWang表示,如果将经典的4x4网格构图重新布局,GPT-4V就会给出错误的描述——「共有8张特写图片,分两排排列,每排4张图」。图片如果问它第一行第三个图是什么,它会说是松饼……吉娃娃:你礼貌吗?此外,UCSB教授WilliamWang也发现,当一堆图片糊到脸上时,GPT-4V就懵了,无法分清到底哪张图是「贵宾犬」,哪张图是「炸鸡腿」。图片学

178页,128个案例,GPT-4V医疗领域全面测评,离临床应用与实际决策尚有距离

在大型基础模型的推动下,人工智能的发展近来取得了巨大进步,尤其是OpenAI的GPT-4,其在问答、知识方面展现出的强大能力点亮了AI领域的尤里卡时刻,引起了公众的普遍关注。GPT-4V(ision)是OpenAI最新的多模态基础模型。相较于GPT-4,它增加了图像与语音的输入能力。该研究则旨在通过案例分析评估GPT-4V(ision)在多模态医疗诊断领域的性能,一共展现并分析共计了128(92个放射学评估案例,20个病理学评估案例以及16个定位案例)个案例共计277张图像的GPT-4V问答实例(注:本文不会涉及案例展示,请参阅原论文查看具体的案例展示与分析)。ArXiv链接:https://

【P4】JMeter 原生录制方式——HTTP代理服务器(HTTP(S) Test Script Recorder)

文章目录一、HTTP代理服务器(HTTP(S)TestScriptRecorder)参数说明二、准备工作三、原生录制方式——HTTP3.1、设计说明3.2、测试计划设计四、原生录制方式——HTTPS4.1、设计说明4.2、测试计划设计五、HTTP代理服务器主要参数说明5.1、目标控制器5.2、分组:在组间添加分割5.3、分组:每个组放入一个新的控制器5.4、分组:只存储每个组的第一个样本5.5、分组:将每个组放入一个新的事务控制器中5.6、记录HTTP信息头5.7、Namingscheme:Transactionname一、HTTP代理服务器(HTTP(S)TestScriptRecorder

GPT-4V连小学生都不如?最新基准测试错误率竟高达90%:红绿灯认错、勾股定理也不会

GPT-4被吹的神乎其神,作为具备视觉能力的GPT-4版本——GPT-4V,也被大众寄于了厚望。但如果告诉你,初中生都知道的勾股定理,只适用于直角三角形。然而GPT-4V却自信将其用于钝角三角形中计算斜边长度。还有更离谱的,GPT-4V直接犯了致命的安全错误,竟然认为红灯可以行驶。这到底是怎么回事呢?马里兰大学的研究团队在探索过程中发现了这些问题,并在此基础上提出了两种主要的错误类型:语言幻觉和视觉错觉,以此来阐释这些错误的原因。图片论文链接:https://arxiv.org/abs/2310.14566项目主页:https://github.com/tianyi-lab/Hallusion

微软出品,166页深度解读,多模态GPT-4V

多模态王炸大模型GPT-4V,166页“说明书”重磅发布!而且还是微软团队出品。什么样的论文,能写出166页?不仅详细测评了GPT-4V在十大任务上的表现,从基础的图像识别、到复杂的逻辑推理都有展示;还传授了一整套多模态大模型提示词使用技巧——手把手教你从0到1学会写提示词,回答专业程度一看就懂,属实是把GPT-4V的使用门槛打到不存在了。值得一提的是,这篇论文的作者也是“全华班”,7名作者全部是华人,领衔的是一位在微软工作了17年的女性首席研究经理。在166页报告发布前,他们还参与了OpenAI最新DALL·E3的研究,对这个领域了解颇深。相比OpenAI的18页GPT-4V论文,这篇166

在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细

最近一段时间,我们见证了大型语言模型(LLM)的显著进步。特别是,生成式预训练Transformer或GPT的发布引领了业界和学术界的多项突破。自GPT-4发布以来,大型多模态模型(LMM)引起了研究界越来越多的兴趣,许多工作致力于构建多模态GPT-4。 近日,GPT-4V(ision)由于出色的多模态感知和推理能力得到了大家格外的关注。然而,尽管GPT-4V具有前所未有的视觉语言理解能力,但其细粒度visualgrounding(输入是图片和对应的物体描述,输出是描述物体的box)能力相对较弱,或者尚未发挥出来。举例来说,当用户询问下图中「放置在右边笔记本电脑的左边是什么物体?」GPT-4V

清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?

GPT-4近日开放了视觉模态(GPT-4V)。以GPT-4V、谷歌Bard为代表的多模态大语言模型(MultimodalLargeLanguageModels,MLLMs)将文本和视觉等模态相结合,在图像描述、视觉推理等各种多模态任务中展现出了优异的性能。然而,视觉模型长久以来存在对抗鲁棒性差的问题,而引入视觉模态的MLLMs在实际应用中仍然存在这一安全风险。最近一些针对开源MLLMs的研究已经证明了该漏洞的存在,但更具挑战性的非开源商用MLLMs的对抗鲁棒性还少有人探索。为了更好地理解商用MLLMs的漏洞,清华朱军教授领衔的人工智能基础理论创新团队围绕商用MLLM的对抗鲁棒性展开了研究。尽管

GPT-4V多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,OpenAI总裁激动转发

最近,GPT-4一直在默默更新,加入了多模态,语音交互等功能。但是与年初OpenAI每次发布的新功能,都能引得外界一阵惊呼的阵仗相比,现在GPT-4的声量似乎小了很多。不知道是不是担心自己产品发布太过于耀眼,导致监管和官司不断找上门,OpenAI除了3周前更新了文生图模型DALL-E3外,在发布了GPT-4之后的7个月内,官方没有公开发布任何新的产品和功能。但是OpenAI总裁GregBrockman自己却在X(推特)上,不断转发利用新版的GPT-4来实现的各种天马行空的功能。利用GPT-4V的多模态能力和代码能力,直接把一个写在书上的数学公式转化成一段Python代码。而利用GPT-4刚更新

假期AI新闻热点:亚运会Al技术亮点;微软GPT-4V论文精读;Perplexity推出pplx-api;DALL-E 3多渠道测评 | ShowMeAI日报

👀日报&周刊合集|🎡生产力工具与行业应用大全|🧡点赞关注评论拜托啦!🔥科技感拉满,第19届杭州亚运会中的Al技术亮点八年筹备,杭州第19届亚运会开幕式于9月23日晚隆重举行,为全球观众带来了一场前所未有的数字科技盛宴。以下盘点了7项亚运会用到的AI技术,详解介绍可点击放大上方图片,非常期待10月8日的闭幕式呀:数字人火炬手:开启全球首个数字点火仪式无介质全息AI机器人:全球首款互动3D双威亚:空中的视觉盛宴杭州亚运会总指挥部AI裁判评分亚运元宇宙真人级全息直播亭🔥ARC浏览器发布重磅AI功能,彻底改变网页浏览体验https://arc.net/maxArc是一款基于人工智能的浏览器,使用了Op