世界各地的人们每天都会创造大量视频,包括用户直播的内容、短视频、电影、体育比赛、广告等等。视频是一种多功能媒介,可以通过文本、视觉和音频等多种模态传递信息和内容。如果可以开发出能学习多模态数据的方法,就能帮助人们设计出具备强大能力的认知机器——它不会受限于经过人工调整的数据集,而是可以分析原生态的真实世界视频。但是,在研究视频理解时,多模态这种丰富的表征会带来诸多挑战,尤其是当视频较长时。理解长视频是很复杂的任务,需要能分析多个片段的图像和音频序列的先进方法。不仅如此,另一大挑战是提取不同来源的信息,比如分辨不同的说话人、识别人物以及保持叙述连贯性。此外,基于视频中的证据回答问题也需要深入理解
大模型的幻觉问题,是业内老生常谈的话题了。最近,一个名为Vectara的机构,在GitHub推出了一个大模型幻觉排行榜。结果显示,在总结短文档方面,GPT-4的表现最为优异,而GooglePalm的两款模型直接垫底!其中GPT-4的准确率为97.0%,幻觉率为3.0%,回答率为100.0%。而垫底的PalmChat2的准确率为72.8%,幻觉率高达27.2%,回答率为88.8%。项目地址:https://github.com/vectara/hallucination-leaderboard这个榜单一出来,立马开始在网上疯转,不过,它也引发了许多业内人士的质疑。英伟达高级科学家JimFan表示
11月14日消息,据外媒报道,OpenAI已经开始构建GPT-5。该公司首席执行官Sam Altman在最近的一次采访中证实了这一点,并声称它可以超级智能,但该公司需要其长期合作伙伴微软的进一步投资才能使其成为现实。Altman表示,与微软的合作进展非常顺利,他希望随着时间的推移,能从微软和其他投资者那里筹集到更多的资金。建立一个像ChatGPT这样的大型人工智能模型需要数十亿美元和大量的计算机资源,对数十亿或数万亿页的数据进行训练,以及广泛的微调和安全测试。虽然GPT-4是一个令人印象深刻的人工智能工具,但它的能力在知识和理解方面接近或反映了人类。预计下一代人工智能模型不仅在知识方面超越人类
人工智能发展进步神速,但问题频出。OpenAI新出的 GPT视觉API前脚让人感叹效果极好,后脚又因幻觉问题令人不禁吐槽。幻觉一直是大模型的致命缺陷。由于数据集庞杂,其中难免会有过时、错误的信息,导致输出质量面临着严峻的考验。过多重复的信息还会使大模型形成偏见,这也是幻觉的一种。但是幻觉并非无解命题。开发过程中对数据集慎重使用、严格过滤,构建高质量数据集,以及优化模型结构、训练方式都能在一定程度上缓解幻觉问题。流行的大模型有那么多,它们对于幻觉的缓解效果如何?这里有个排行榜明确地对比了它们的差距。该排行榜由专注于AI的Vectara平台发布。排行榜更新于2023年11月1日,Vectara表示
AI之Merlin:Merlin(一款使用ChatGPT和GPT-4的简单且免费的工具)的简介、安装、使用方法之详细攻略目录Merlin的简介(一款使用ChatGPT和GPT-4的简单且免费的工具)Merlin的安装第一步,先添加插件
11月10日凌晨,OpenAI上线GPTs,所有的ChatGPTPlus订阅用户都可以自己定制GPT,无需任何编码知识,在聊天过程中就构建好了。发布当天,OpenAICEO山姆・奥特曼还玩了一把幽默,亲自示范如何开发一个全新的GPT应用,令人没想到的是,这个GPT竟然和马斯克的大模型产品「Grok」同名:虽然奥特曼这一做法看起来似乎不是很地道,但是简短几句话,就能构建好GPT,确实引发了广大网友的好奇,纷纷加入构建GPT大潮,场面火爆到曾一度让OpenAI服务器处在崩溃边缘。但是,这些自定义GPT到底如何呢?从网友的反馈来看,有些效果还是蛮不错的。例如这位网友表示:「距离发布自定义GPT才过去
微软最近发布了名为“MathVista”的全新多模态数学推理基准数据集,同时提供了一份涵盖 112页的详细评测报告,专注于大型多模态模型的数学推理表现。这一基准测试对于目前最先进的模型,如GPT-4V,来说也是一项挑战,显示了这些模型在多模态数学问题解决方面的局限性。报告还深入分析了GPT-4V在自我验证、自洽性和多轮对话能力的研究潜力。论文地址:https://arxiv.org/abs/2310.02255项目地址:https://mathvista.github.io/HF数据集:https://huggingface.co/datasets/AI4Math/MathVista数据可视化
GPT-4V诞生后,惊艳的多模态能力让网友惊呼连连,连OpenAI总裁GregBrockman都不断在X上安利。不过,最近大家发现,只要打乱布局,GPT-4V就会被曾经解决的著名计算机视觉难题——「吉娃娃还是松饼」,再次难倒……UCSC教授XinEricWang表示,如果将经典的4x4网格构图重新布局,GPT-4V就会给出错误的描述——「共有8张特写图片,分两排排列,每排4张图」。图片如果问它第一行第三个图是什么,它会说是松饼……吉娃娃:你礼貌吗?此外,UCSB教授WilliamWang也发现,当一堆图片糊到脸上时,GPT-4V就懵了,无法分清到底哪张图是「贵宾犬」,哪张图是「炸鸡腿」。图片学
GoogleDeepMind最近在自己的视频博客上上传了一段视频,「简单明了地」演示了大语言模型的工作原理,引发了网友的激烈讨论。网友看了之后纷纷表示:「终于,他们发了点普通人能看懂的东西了」。「哦豁,这下懂了」「对,就是这么简单!」「太棒了,感谢感谢,这下我明白了。」「简单明了」,「已经不能再简单了!」当然,也有个别老实人在角落里小声地嘀咕,「像极了嘴上说着懂了懂了,实际上啥也看不懂的我。」如果你还不确定自己真的没懂LLM的工作原理,看了这个视频之后就能确定你其实真的不懂。😂果然应了那句老话,「人类的悲(ren)喜(zhi)并不相通」。除了皇帝的新装外,也有网友尝试解释DeepMind做出这
评估大模型对齐表现最高效的方式是?在生成式AI趋势里,让大模型回答和人类价值(意图)一致非常重要,也就是业内常说的对齐(Alignment)。“让大模型自己上。”这是上海交通大学生成式人工智能研究组(GAIR)提出的最新思路。但是目前的评估方法还存在透明度不够、准确性不佳等问题。所以研究人员开源了一个130亿参数规模的大模型Auto-J,能对评估当下大模型的对齐效果。它可同时分析两个大模型的回答,分别做出评价并进行对比。也能评估单个回复。并且在这一任务上的表现超越了GPT-4。目前,该项目开源了大量资源,包括:Auto-J的130亿参数模型(使用方法、训练和测试数据也已经在GitHub上给出)