连百年梗图都整明白了！微软多模态「宇宙」搞定IQ测试，仅16亿参数

新智元 2023-03-28 原文

大模型的卷，已经不睡觉都赶不上进度了......

这不，微软亚研院刚刚发布了一个多模态大型语言模型（MLLM）—— KOSMOS-1。

论文地址：https://arxiv.org/pdf/2302.14045.pdf

论文题目Language Is Not All You Need，还得源于一句名言。

文中有这么一句话，「我语言的局限，就是我世界的局限。——奥地利哲学家Ludwig Wittgenstein」

那么问题来了......

拿着图问KOSMOS-1「是鸭还是兔」能搞明白吗？这张有100多年历史的梗图硬是把谷歌AI整不会了。

1899年，美国心理学家Joseph Jastrow首次使用「鸭兔图」来表明感知不仅是人们所看到的，而且是一种心理活动。

现在，KOSMOS-1便能将这种感知和语言模型相结合。

-图中是什么？

-像一只鸭子。

-如果不是鸭子，那是什么？

-看起来更像兔子。

-为什么？

-它有兔子的耳朵。

这么一问，KOSMOS-1真有点像微软版的ChatGPT了。

不仅如此，Kosmos-1还能理解图像、文本、带有文本的图像、OCR、图像说明、视觉QA。

甚至IQ测试也不在话下。

「宇宙」无所不能

Kosmos来源希腊一词cosmos，有「宇宙」之意。

据论文介绍，最新Kosmos-1模型是一个多模态大型语言模型。

其主干是一个基于Transformer的因果语言模型，除了文本之外，其他模态，如视觉、音频都可以嵌入模型。

Transformer解码器用作多模态输入的通用接口，因此它能感知一般模态，进行上下文学习，并遵循指令。

Kosmos-1在语言和多模态任务上取得了令人印象深刻的表现，无需进行微调，其中包括带有文字指示的图像识别、视觉问答和多模态对话。

如下是Kosmos-1生成一些例子式样。

图片解释、图片问答、网页问题回答，简单数字公式，以及数字识别。

那么，Kosmos-1是在哪些数据集上进行预训练的呢？

训练所用的数据库，包括文本语料库、图像-字幕对、图像和文本交叉数据集。

文本语料库取自The Pile和Common Crawl（CC）；

图像-字幕对的来源为English LAION-2B、LAION-400M、COYO-700M和Conceptual Captions；

文本交叉数据集的来源是Common Crawl snapshot。

数据库有了，接下来就是对模型进行预训练了。

MLLM组件有24层、2,048个隐藏维度、8,192个FFN和32个注意力头头，产生了大约1.3B的参数。

为了保证优化的稳定性，采用Magneto初始化；为了更快地收敛，图像表示是从一个预先训练好的具有1024个特征维度的CLIP ViT-L/14模型获取的。在训练过程中，图像被预处理成224×224分辨率，CLIP模型的参数除了最后一层均被冻结。

KOSMOS-1的参数总量约为16亿。

为了使KOSMOS-1更好地与指令保持一致，对其进行了只用语言的指令调整 [LHV+23, HSLS22]，即用指令数据继续训练模型，该指令数据是仅有的语言数据，与训练语料库混合。

该调优过程是按照语言建模的方式进行的，选取的指令数据集为Unnatural Instructions [HSLS22]和FLANv2 [LHV+23]。

结果显示，指令跟随能力的提高可以跨模式转移。

总之，MLLM可以从跨模态迁移中获益，将知识从语言迁移到多模态，反之亦然；

5大类10个任务，都拿捏了

一个模型好不好使，拿出来溜溜就知道了。

研究团队从多角度进行实验来评价KOSMOS-1的性能，包括5大类十项任务：

1 语言任务（语言理解、语言生成、无OCR的文本分类）

2 多模态转移（常识推理）

3 非语言推理（IQ测试）

4 感知-语言任务（图像说明、视觉问答、网页问答）

5 视觉任务（零样本图像分类、带描述的零样本图像分类）

无OCR的文本分类

这是一种不依赖于光学字符识别（OCR）的专注于文本和图像的理解任务。

KOSMOS-1对HatefulMemes和对Rendered SST-2测试集的准确率均高于优于其他模型。

而且Flamingo明确提供OCR文本到提示中，KOSMOS-1并没有访问任何外部工具或资源，这展示了KOSMOS-1阅读和理解渲染的图像中的文本的内在能力。

IQ测试

瑞文智力测试是评估非语言的最常用测试之一。

KOSMOS-1在没有进行微调时准确率比随机选择提高了5.3%，经过微调后则提高了9.3%，表明其具有感知非语言环境中的抽象概念模式的能力。

这是首次有模型能够完成零样本Raven测试，证明了MLLMs通过将感知与语言模型结合起来进行零样本非言语推理的潜力。

图像说明

KOSMOS-1在COCO和Flickr30k测试中的零样本性能均表现优秀，相比其他模型，其得分更高，但采用的参数量更小。

在少样本性能测试中，得分随着k值增大有所增加。

零样本图像分类

给定一个输入图像，并将该图像与提示「The photo of the」连接起来。然后，输入模型以获得图像的类别名称。

通过在ImageNet[DDS+09]上评估该模型，在有约束和无约束的条件下，KOSMOS-1的图像归类效果都明显优于GIT[WYH+22]，展现了完成视觉任务的强大能力。

常识推理

视觉常识推理任务要求模型理解现实世界中日常物体的属性，如颜色、大小和形状，这些任务是具有挑战性的，因为它们可能需要比文本中更多的关于物体属性的信息。

结果显示，KOSMOS-1在尺寸和颜色方面的推理能力都明显好于LLM模型。这主要是因为KOSMOS-1具备多模态迁移能力，从而能够将视觉知识运用到语言任务中，而不必像LLM那样必须依靠文本知识和线索来推理。

对于微软Kosmos-1，网友称赞道，未来5年，我可以看到一个高级机器人浏览网络，并仅通过视觉方式基于人类的文本输入来工作。真是有趣的时代。

多模连 span style font-size 人工智能新闻 $模型微软

有关连百年梗图都整明白了！微软多模态「宇宙」搞定IQ测试，仅16亿参数的更多相关文章

ruby-on-rails - 如何在 ruby 中使用两个参数异步运行 exe？ - 2
exe应该在我打开页面时运行。异步进程需要运行。有什么方法可以在ruby中使用两个参数异步运行exe吗？我已经尝试过ruby命令-system()、exec()但它正在等待过程完成。我需要用参数启动exe，无需等待进程完成是否有任何rubygems会支持我的问题？最佳答案您可以使用Process.spawn和Process.wait2:pid=Process.spawn'your.exe','--option'#Later...pid,status=Process.wait2pid您的程序将作为解释器的子进程执行。除
ruby - RSpec - 使用测试替身作为 block 参数 - 2
我有一些Ruby代码，如下所示:Something.createdo|x|x.foo=barend我想编写一个测试，它使用double代替block参数x，这样我就可以调用:x_double.should_receive(:foo).with("whatever").这可能吗？最佳答案 specify'something'dox=doublex.should_receive(:foo=).with("whatever")Something.should_receive(:create).and_yield(x)#callthere
ruby - 如何在 Ruby 中拆分参数字符串 Bash 样式？ - 2
我正在为一个项目制作一个简单的shell，我希望像在Bash中一样解析参数字符串。foobar"helloworld"fooz应该变成:["foo","bar","helloworld","fooz"]等等。到目前为止，我一直在使用CSV::parse_line，将列分隔符设置为""和.compact输出。问题是我现在必须选择是要支持单引号还是双引号。CSV不支持超过一个分隔符。Python有一个名为shlex的模块:>>>shlex.split("Test'helloworld'foo")['Test','helloworld','foo']>>>shlex.split('Test"
ruby - 检查方法参数的类型 - 2
我不确定传递给方法的对象的类型是否正确。我可能会将一个字符串传递给一个只能处理整数的函数。某种运行时保证怎么样？我看不到比以下更好的选择:defsomeFixNumMangler(input)raise"wrongtype:integerrequired"unlessinput.class==FixNumother_stuffend有更好的选择吗？最佳答案使用Kernel#Integer在使用之前转换输入的方法。当无法以任何合理的方式将输入转换为整数时，它将引发ArgumentError。defmy_method(number)
ruby-on-rails - 在默认方法参数中使用 .reverse_merge 或 .merge - 2
两者都可以defsetup(options={})options.reverse_merge:size=>25,:velocity=>10end和defsetup(options={}){:size=>25,:velocity=>10}.merge(options)end在方法的参数中分配默认值。问题是:哪个更好？您更愿意使用哪一个？在性能、代码可读性或其他方面有什么不同吗？编辑:我无意中添加了bang(!)...并不是要询问nobang方法与bang方法之间的区别最佳答案我倾向于使用reverse_merge方法:option
ruby - 定义方法参数的条件 - 2
我有一个只接受一个参数的方法:defmy_method(number)end如果使用number调用方法，我该如何引发错误？？通常，我如何定义方法参数的条件？比如我想在调用的时候报错:my_method(1) 最佳答案您可以添加guard在函数的开头，如果参数无效则引发异常。例如:defmy_method(number)failArgumentError,"Inputshouldbegreaterthanorequalto2"ifnumbereputse.messageend#=>Inputshouldbegreaterthano
ruby - rails 3 redirect_to 将参数传递给命名路由 - 2
我没有找到太多关于如何执行此操作的信息，尽管有很多关于如何使用像这样的redirect_to将参数传递给重定向的建议:action=>'something',:controller=>'something'在我的应用程序中，我在路由文件中有以下内容match'profile'=>'User#show'我的表演Action是这样的defshow@user=User.find(params[:user])@title=@user.first_nameend重定向发生在同一个用户Controller中，就像这样defregister@title="Registration"@user=Use
ruby - 字符串文字中的转义状态作为 `String#tr` 的参数 - 2
对于作为String#tr参数的单引号字符串文字中反斜杠的转义状态，我觉得有些神秘。你能解释一下下面三个例子之间的对比吗？我特别不明白第二个。为了避免复杂化，我在这里使用了'd'，在双引号中转义时不会改变含义("\d"="d")。'\\'.tr('\\','x')#=>"x"'\\'.tr('\\d','x')#=>"\\"'\\'.tr('\\\d','x')#=>"x" 最佳答案在tr中转义tr的第一个参数非常类似于正则表达式中的括号字符分组。您可以在表达式的开头使用^来否定匹配(替换任何不匹配的内容)并使用例如a-f来匹配一
ruby-on-rails - 如何生成传递一些自定义参数的 `link_to` URL？ - 2
我正在使用RubyonRails3.0.9，我想生成一个传递一些自定义参数的link_toURL。也就是说，有一个articles_path(www.my_web_site_name.com/articles)我想生成如下内容:link_to'Samplelinktitle',...#HereIshouldimplementthecode#=>'http://www.my_web_site_name.com/articles?param1=value1¶m2=value2&...我如何编写link_to语句“alàRubyonRailsWay”以实现该目的？如果我想通过传递一些
在VMware16虚拟机安装Ubuntu详细教程 - 2
在VMware16.2.4安装Ubuntu一、安装VMware1.打开VMwareWorkstationPro官网，点击即可进入。2.进入后向下滑动找到Workstation16ProforWindows，点击立即下载。3.下载完成，文件大小615MB，如下图：4.鼠标右击，以管理员身份运行。5.点击下一步6.勾选条款，点击下一步7.先勾选，再点击下一步8.去掉勾选，点击下一步9.点击下一步10.点击安装11.点击许可证12.在百度上搜索VM16许可证，复制填入，然后点击输入即可，亲测有效。13.点击完成14.重启系统，点击是15.双击VMwareWorkstationPro图标，进入虚拟机主

连百年梗图都整明白了！微软多模态「宇宙」搞定IQ测试，仅16亿参数

「宇宙」无所不能

5大类10个任务，都拿捏了

有关连百年梗图都整明白了！微软多模态「宇宙」搞定IQ测试，仅16亿参数的更多相关文章

随机推荐