微软再扔AI聊天画图炸弹！视觉模型加持ChatGPT，Visual ChatGPT横空出世

新智元 2023-03-28 原文

图文版ChatGPT诞生了！

刚刚，微软亚研院发布了一个炸弹级模型Visual ChatGPT。

论文地址：https://arxiv.org/abs/2303.04671

以前的ChatGPT虽然具有卓越的对话能力和推理能力，但也有短板——还不能处理或生成视觉图像。

而Visual Transformers或Stable Diffusion，虽然在视觉理解和生成能力上很强大，却只有一轮固定的输入和输出。

微软亚研院学者提出的模型，就把视觉模型信息注入了ChatGPT，使用户能够与ChatGPT以语言和图像的形式交互，还能提供复杂的视觉指令，让多个模型通过多步骤协作。

微软前不久推出的Kosmos-1，就属于多模态大语言模型，传言下周发布的GPT4，据说也是转向了多模态。看来，微软在下一盘多模态的大棋。

作画、上色、抠图，一键拿捏

注入视觉模型后，ChatGPT直接化身艺术大师，想要什么作品，动动嘴就行了。

-帮我画一个苹果。Visual ChatGPT直接生成了一张画好的图。

这还仅是前菜，Visual ChatGPT各种画风全能hold住，比如：

随便给个草图框架，它便能输出一幅精美的画作。

另外，上色、「抠图」、深度图、基于深度图再生成图片都能拿捏。

一张简陋的图经过你的精心调教后，就变成了这个样子。

当然了，Visual ChatGPT没有忘本，让它进行创作的同时，还能描述图片、回答问题。

有了Visual ChatGPT的加持，微软必应简直可以制霸全世界了。

Prompt Manager，让视觉模型立刻和ChatGPT合体

研究者是如何想到这个点子的呢？

当红炸子鸡ChatGPT能输入输出文字类的信息，但是在图像理解和生成方面能力有限。

Visual ChatGPT并非是从头训练的，而是直接基于ChatGPT构建，并向其注入了许多可视化模型（VFMs）。Stable Diffusion就是可视化模型的典型代表。

VFMs虽然在文本-图像生成上展现出巨大能力，但在人机交互上却不如对话语言模型灵活。

微软亚研院的研究人员便get了一个点，将这两者结合，提出Visual ChatGPT，岂不是强强联合。

点子有了，那视觉模型信息如何注入ChatGPT呢？就是通过一系列提示。

论文中提出了Prompt Manager，具体步骤是——

1 首先明确告诉ChatGPT每个VFM的能力，并指定输入-输出格式。

2 然后转换不同的视觉信息，比如将Png图、深度图和掩模矩阵，转换为语言格式。

3 最后处理不同VFMs的历史、优先级和冲突。

在Prompt Manager的帮助下，ChatGPT可以利用这些VFMs，并以迭代的方式接收其反馈，直到满足用户的要求或达到结束条件。

如图，上传一个黄色花朵的图像，然后输入一个复杂语言指令「请根据图像的预测深度生成一朵红色花朵，然后一步一步地把它做成卡通形象」。

Visual ChatGPT便开始执行任务链：

首先应用深度估计模型来检测深度信息，然后利用深度图像模型生成一个带有深度信息的红色花朵图形，最后利用基于Stable Diffusion的风格转换VFM，将该图像转化为卡通风格。

在上述管道中，Prompt Manager通过提供可视化格式的类型，和记录信息转换的过程，来充当ChatGPT的调度器。

最后，当 Visual ChatGPT从Prompt Manager获得「卡通」提示时，将结束执行管道，并显示最终结果。

模型概述

左边是进行的三轮对话；中间是Visual ChatGPT如何迭代调用VFMs并提供答案的流程图；右侧是第二个QA的详细过程。

M（P）

Visual ChatGPT为了能让不同的VFM理解视觉信息并生成相应答案，需要设计一系列系统原则，并将其转化为ChatGPT能够理解的提示。

通过生成这样的提示，Prompt Manager能够帮助Visual ChatGPT完成生成文本、图像的任务，能够访问一系列VFM并自由选择使用哪个基础模型，提高对文件名的敏感度，进行链式思考和严格推理。

M（F）

Prompt Manager需要帮助Visual ChatGPT区分不同的VFM，以便准确地完成图像任务。

为此，Prompt Manager对各个基础模型的名称、应用场景、输入和输出提示以及实例给出了具体定义。

M（Q）

Prompt Manager会对用户新上传的图像生成唯一文件名，并生成假的对话历史，其中提到该名称的图片已经收到，这样可以在涉及引用现有图像的查询时忽略文件名的检查。

Prompt Manager会在查询问题之后加上一个后缀提示，来确保成功触发VFM，强制Visual ChatGPT进行思考，给出言之有物的输出。

M（F（A））

VFM给出的中间输出，Prompt Manager会为其生成链式文件名，作为下一轮内部对话的输入。

ChatGPT生成最终答案要经历一个不断迭代的过程，它会不断自我询问，自动调用更多VFM。而当用户指令不够清晰时，Visual ChatGPT会询问其能否提供更多细节，避免机器自行揣测甚至篡改人类意图。

Prompt Manager概述

每个视觉基础模型的GPU显存使用情况如下：

通过修改self.tools来调整模型的使用数量，便可以节省显存。

案例研究

此外，论文还分析了在各个模块，如果Prompt Manager的设计不到位，会各自出现什么问题。

比如，对于工具包的描述，需要对其名字、功能、输入输出有严格的设计。不过举例影响不大，只要描述清楚，ChatGPT便可以理解。

另外，在M(P)中，不强调对图片文件名的敏感，没有严格的思考链格式、不强调可靠性、还有可以使用链式使用工具，模型在输出时就会产生错误。

论文中，作者也指出了当前Visual ChatGPT存在的一些局限。

比如，需要大量的提示来将VFMs转换成语言，实时能力有限、token长度有限制等等。

作者介绍

论文一作吴晨飞，高级研究员，2020年加入微软亚洲研究院自然语言计算组，研究领域为多模型的预训练、理解和生成。

通讯作者段楠，微软亚洲研究院首席研究员及自然语言计算组研究经理，中国科学技术大学兼职博导，天津大学兼职教授，研究领域为自然语言处理、代码智能、多模态智能和机器推理等。

Visual ChatGPT的横空出世，让ChatGPT聊天更加丝滑了。

有网友预测，这个功能会迅速集成到新必应中，可能作为付费服务，让日常消费者更接近与「人类」的对话……

也有网友说，这个应用简直堪比早期的智能手机，相当于人们早期的应用程序开发。可以想象，它们最终的使用范围会比最初设想的要广泛得多。

ChatGPT 画图 span style font-size 开发前端 $ChatGPT AI 微软

有关微软再扔AI聊天画图炸弹！视觉模型加持ChatGPT，Visual ChatGPT横空出世的更多相关文章

亚特兰蒂斯的回声（中文版): chatGPT 的杰作 - 2
英文版英文链接关注公众号在“亚特兰蒂斯的回声”中踏上一段难忘的冒险之旅，深入未知的海洋深处。足智多谋的考古学家AriaSeaborne偶然发现了一件古代神器，揭示了一张通往失落之城亚特兰蒂斯的隐藏地图。在她神秘的导师内森·兰登教授的指导和勇敢的冒险家亚历克斯·默瑟的帮助下，阿丽亚开始了一段危险的旅程，以揭开这座传说中城市的真相。他们的冒险之旅带领他们穿越险恶的大海、神秘的岛屿和充满陷阱和谜语的致命迷宫。随着Aria潜在的魔法能力的觉醒，她被睿智勇敢的QueenNeria的幻象所指引，她让她为即将到来的挑战做好准备。三人组揭开亚特兰蒂斯令人惊叹的隐藏文明，并了解到邪恶的巫师马拉卡勋爵试图利用其古
(附源码)vue3.0＋.NET6实现聊天室(实时聊天SignalR) - 2
参考文章搭建文章gitte源码在线体验可以注册两个号来测试演示图：一.整体介绍　　介绍SignalR一种通讯模型Hub(中心模型，或者叫集线器模型)，调用这个模型写好的方法，去发送消息。　　内容有：　　　　①：Hub模型的方法介绍　　　　②：服务器端代码介绍　　　　③：前端vue3安装并调用后端方法　　　　④：聊天室样例整体流程：1、进入网站->调用连接SignalR的方法2、与好友发送消息->调用SignalR的自定义方法前端通过，signalR内置方法.invoke() 去请求接口3、监听接受方法（渲染消息）通过new signalR.HubConnectionBuilder().on
智能客服 | 浅谈人工智能聊天机器人ChatGPT - 2
2022年底，OpenAI的预训练模型ChatGPT给人工智能领域的爱好者和研究人员留下了深刻的印象和启发，他展现的惊人能力将人工智能的研究和应用热度推向高潮，网上也充斥着和ChatGPT的各种聊天，他可以作诗、写小说、写代码、讨论疫情问题等。下面就是一些他的神回复：人命关天的坑：写歌，留给词作者的机会不多了。。。回答人类怎么样面对人工智能：什么是ChatGPT？借用网上的一段介绍，ChatGPT是由人工智能研究实验室OpenAI在2022年11月30日发布的全新聊天机器人模型，一款人工智能技术驱动的自然语言处理工具。它能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动
【ChatGPT】ChatGPT 的 N 种用法 - 2
目录ChatGPT简介技术原理应用未来发展ChatGPT的10 种用法ChatGPT简介ChatGPT是一种基于深度学习的大型语言模型，由OpenAI公司开发。技术原理GPT是GenerativePre-trainedTransformer的缩写，意为生成式预训练变压器。它的技术原理是使用了一个基于注意力机制的变压器（Trans
ruby - 使用 Ruby 构建聊天应用程序 - 2
我正在尝试构建一个纯粹使用Ruby的聊天应用程序。有一个similarquestion较早发布，但我有不同的相关查询。我看过thisexample(与之前发布类似问题的人所提到的相同)。示例中的代码似乎对我不起作用。在终端上运行ruby脚本，并连接到url:http://localhost:1234在我的浏览器中，我无限期地遇到“正在从本地主机传输数据...”消息。此处的1234是所提供示例中使用的端口号。我无法弄清楚我运行失败的原因是什么。可能是我需要在执行脚本时在命令行中指定一些东西，或者我应该通过其他地方(可能是浏览器)开始聊天(输入输出)。我无法弄清楚到底该做什么。你能帮我
「想体验ChatGPT中文聊天？」那快进来，你用不上算我输 - 2
♥️作者：白日参商🤵‍♂️个人主页：白日参商主页♥️坚持分析平时学习到的项目以及学习到的软件开发知识，和大家一起努力呀！！！🎈🎈加油！加油！加油！加油🎈欢迎评论💬点赞👍🏻收藏📂加关注+！「想体验ChatGPT中文聊天？」那快进来，你用不上算我输项目场景：项目条件一、那就开始吧1、安装ChatGPT-Desktop2、OpenAPI设置二、使用实例恭喜你！！！配置成功了！！！API和URL都是博主免费提供给大家的！！！恭喜你！！！配置成功了！！！API和URL都是博主免费提供给大家的！！！🎈🎈加油！加油！加油！加油🎈欢迎评论💬点赞👍🏻收藏📂加关注+！项目场景：近几个月可以说ChatGPT是火得一
半个月狂飙1000亿，ChatGPT概念股凭什么？ - 2
ChatGPT掀起了AI股历史上最疯狂的一轮市值狂飙。自春节后至今，ChatGPT概念股开始了暴走模式，短短半月时间，海天瑞声、开普云等ChatGPT概念股市值累计增加了近1400亿。如此的爆炸效应，得益于ChatGPT所展现出商业化落地的巨大潜力。要知道，在此之前，无论是十年AI投入超千亿的百度，还是困在硬件化里的AI四小龙，都在重复着AI商业化难落地的故事。ChatGPT的出现，让AI从生产力的赋能者直接成为一种创造生产力的工具。随着订阅模式的推出，ChatGPT已经成为第一个以AI技术为核心直接变现的消费者应用。本文持有以下核心观点：1、ChatGPT是AI技术迭代的受益者。过去受限技术
未来的趋势————以ChatGPT为标杆的AI对生活的影响是巨大的 - 2
文章目录前言1.AI的发展历程2.我是如何接触到人工智能的概念和产品的3.对于ChatGPT的一点看法4.AI对大学毕业生的职业发展的利与弊5.对于AI的思考和问题前言随着ChatGPT的爆火，生成式AI，大模型的人工智能被越来越多的人注意到，同时他也带来了许多问题。本文将对几方面进行探讨。1.AI的发展历程远古时期在公元前第一个千禧年，中国，印度和希腊哲学家都提出了一些推理的研究理论，比如亚里士多德（Aristotle）进行了演绎推理三段论的完整分析，欧几里得（Euclid）所著Elements是一种形式推理的模型，MuḥammadibnMūsāal-Khwārizmī,发明了代数学，即我们
焕新古文化传承之路，AI为古彝文识别赋能 - 2
目录1古彝文与古典保护2古文识别的挑战2.1西文与汉文OCR2.2古彝文识别难点3合合信息：古彝文保护新思路3.1图像矫正3.2图像增强3.3语义理解3.4工程技巧4总结1古彝文与古典保护彝文指的是云南、贵州、四川等地的彝族人使用的文字，区别于现代意义上的彝文，古彝文指的是在民间流通使用的原生态彝文，多达87046字。古彝文的起源距今至少数千年，是世界上最古老的文字之一。对古彝文字集研究有助于理解尚未被翻译成汉文、用字尚未规范化的古籍，更深层、透彻地作用于传统文化保护。古彝文字义对照图（网络资料+邵文苑供图）古籍是不可再生的宝贵资源，应当得到妥善保护。中国的古籍在历史上迭经水火兵燹等自然灾害、
ruby-on-rails - Ruby on Rails 3 - 公共(public)实时聊天 - 2
我想使用Rails3创建一个公共(public)实时聊天应用程序。我在rails2上找到了一些例子。任何人都可以告诉你一个很好的例子/教程来使用rails3开发一个实时聊天应用程序。最佳答案当我试图在我的Rails3应用程序中实现一个公共(public)和私有(private)聊天系统时，我遇到了几个障碍。我查看了faye、juggernaut、node.js等。最终在尝试了几种方法之后，我能够实现一个运行良好的系统:1)我开始关注Railscast260中的faye消息传递视频指南。正如DevinM所提到的，我能够快速设置一个