
文章目录
论文:Visual ChatGPT :Talking, Drawing and Editing with Visual Foundation Models
代码:https://github.com/microsoft/visual-chatgpt
出处:Microsoft Research Asia
时间:2023.03
Visual ChatGPT 是一个能够调动多个不同基础视觉模型来理解视觉信息并生成对应回答的系统。
近期, Large Language models(LLMs)发展非常快,如 T5[32]、BLOOM[36]、GPT-3[5] 等。
尤为引起人们注意的是 ChatGPT(基于 Instruct-GPT[29] 而来),能够以真实对话的方式实现和人类的交互。
但是 ChatGPT 是使用语言模型训练的,不适用于图像方面的生成任务。
图像方面,Visual Foundation Models (VFMs) 也有很好的效果,BLIP[22] 能够很好的理解图像并输出对图像的描述, Visual Transformer 和 Stable Diffusion[35] 在图像理解和生成方面有很好的效果。
但上述的先进的语言模型和图像模型只能接收特定模态的输入和输出。而且图像模型有较高的固定输入输出格式,使得图像模型没有语言模型灵活。
能否构建一个类似于 ChatGPT 的系统来实现图像的理解和生成呢?
本文作者提出了一种 Visual ChatGPT,不需要从头开始训练多模态 ChatGPT,而是基于 ChatGPT 和多种 VFMs。
为了弥补 ChatGPT 和这些 VFMs 的 gap,作者又构建了一个提示管理器(Prompt Manager)来支持如下的功能,通过 Prompt Manager 来指导 ChatGPT 使用这些 VFMs,并迭代反馈 :
Visual ChatGPT 能够通过如下三步来实现图像模型和语言模型的交互:
示例如图 1 所示:

本文贡献:
假设一个有 N N N 个 question-answer pairs 的对话系统为 S = { ( Q 1 , A 1 ) , ( Q 2 , A 2 ) , . . . , ( Q N , A N ) } S=\{(Q_1, A_1),(Q_2, A_2),...,(Q_N, A_N) \} S={(Q1,A1),(Q2,A2),...,(QN,AN)}
为了从第 i i i 轮对话中得到响应 A i A_i Ai,需要使用一系列的 VFM 和这些模型的中间输出 A i ( j ) A_i^{(j)} Ai(j)。 j j j 表示第 j j j 个 VFM ( F F F) 的输出。
也就是说在时域 Prompt Manager M M M 协调时, A i ( j ) A_i^{(j)} Ai(j) 的形式需要不断修改来满足每个 F F F 的输入。
最后,如果表示为最终响应,则系统输出 A i ( j ) A_i^{(j)} Ai(j) ,不再执行 VFM。
Visual ChatGPT 的表达形式如下:

Visual ChatGPT 的基础视觉模型如下,共 22 个:

Prompt Managing of System Principles M ( P ) M(P) M(P)
Visual ChatGPT 是一个能够调动多个不同 VFMs 来理解视觉信息并生成对应回答的系统。故此,需要很多准则来指导管理器将信息转换为 ChatGPT 能理解的信息。
Prompt Managing (提示管理器)有如下几个作用:

Prompt Managing of Foundation Models M ( F ) M(F) M(F)
Visual ChatGPT 中有多个 VFM 来处理各种 VL 任务。这些不同的 VFM 有相似之处,例如:
如图 3 所示,提示管理器明确定义了以下各个子提示符,以帮助 Visual ChatGPT 准确地理解和处理 VL 任务:

Prompt Managing of User Querie M ( Q i ) M(Q_i) M(Qi)
Visual ChatGPT 能够支持多种的查询,包括语言和图像的,简单的和复杂的,Prompt 通过如下两个方面来处理用户的查询:
Generate Unique Filename
Visual ChatGPT 可以处理两种与图像相关的查询:一种涉及新上传的图像,另一种涉及对现有图像的引用。
对于新上传的图像,Visual ChatGPT 生成一个具有普遍唯一标识符(UUID)的唯一文件名,并添加一个表示相对目录的前缀字符串 “image”,例如,“image/{uuid}.png”。
虽然新上传的图像不会被输入 ChatGPT,但会生成一个虚假的对话历史,其中有一个问题说明图像的文件名,还有一个答案表明图像已经收到。这段虚假的对话历史有助于之后的对话。
对于涉及引用现有图像的查询,Visual ChatGPT 会忽略文件名检查。这种方法已经被证明是有益的,因为 ChatGPT 能够理解用户查询的模糊匹配,如 UUID 名称。
Force VFM Thinking
为了确保 Visual ChatGPT 的成功触发 VFM ,在(Qi)中添加了一个后缀提示:“由于 Visual ChatGPT 是一种文本语言模型,Visual ChatGPT 必须使用工具来观察图像,而不是想象。这些思想和观察只在 Visual ChatGPT 中可见,Visual ChatGPT 应该记住在人类的最终反应中重复重要的信息。也会反复思考:我需要使用一个工具吗?”。
这个提示有两个目的:
Prompt Managing of Foundation Model Outputs M ( F ( A i ( j ) ) ) M(F(A_i^{(j)})) M(F(Ai(j)))
对于来自不同 VFM F ( A i ( j ) ) F(A_i^{(j)}) F(Ai(j)) 的中间输出,Visual ChatGPT 能够隐式地总结并将它们提供给 ChatGPT 进行后续交互,即调用其他 VFM 进行进一步的操作,直到达到结束条件或反馈给用户。内部的步骤可以总结如下:
Genarete Chained Filename:
由于 Visual ChatGPT 的中间输出将成为下一轮隐式对话的输入,故应该使这些输出更合乎逻辑,以帮助 LLMs 更好地理解推理过程。
具体来说就是从视觉基础模型生成的图像被保存在路径 “image/” 文件夹下。
之后,image 的命名为 :“{Name} {Operation} {Prev Name} {Org Name}”
例如 “image/ui3c_edge-of_o0ec_nji9dcgf.png” 表示输入 o0ec 的一个名为 ui3c 的 canny edge image,且该图像的元素名称为 nji9dcgf。
这样的命名规则可以让 ChatGPT 了解是如何生成的这个图像
Call for More VFMs:
Visual ChatGPT 的一个核心是可以自动调用更多的 VFMs 来完成用户的命令。也就是 ChatGPT 会不断询问自己,它是否需要 VFM 来解决当前的问题,在每一阶段结束时扩展一个 VFMs 的后缀。
Ask for More Details:
当用户的命令模棱两可时,Visual ChatGPT 应该向用户询问更多的细节,以帮助更好地利用 VFM。这种设计是为了安全考虑,因为 LLMs 不允许毫无根据地任意篡改或推测用户的意图(特别是当输入信息不足时)。
使用 ChatGPT [29](OpenAI“文本-数据-003”版本)实现 LLM(Large Language Model),并用 LangChain[7] 指导 LLM。
从 HuggingFace Transformers [43], Maskformer [10] 和 ControlNet [53] 来收集基础模型。
所有 22 个 VFM 全部部署需要 4 个 Nvidia V100 GPU,但用户可以部署更少的基础模型,以灵活地节省 GPU 资源。
聊天历史记录的最大长度为 2000,多余的令牌被截断以满足 ChatGPT 的输入长度。
如图 4 所示,展示了 Visual ChatGPT 的 16 轮多模态对话

图 5 展示了 Prompt Manager 相关案例研究
为了验证系统的效率,会从中删除不同的部分来比较模型的性能,每次去除都会导致不同的容量退化。

1、Case Study of prompt managing of foundation models
VFM 的名称是最重要的:
名称需要有明确的定义,当名称缺失或不明确时,Visual ChatGPT 会多次猜测,直到它找到一个现有的 VFM,或遇到一个错误,如图 6 的左上部分所示。
VFM 的使用:
应该清楚地描述应该使用模型以避免错误响应的特定场景。右上角显示了样式转换对替换对象的处理不当。
应准确提示输入和输出格式,以避免参数错误,如左下角所示。
虽然右下角删除了示例提示,但 ChatGPT 也可以总结对话历史和人类意图来使用正确的 VFM,如右下角所示。

2、 Case Study of prompt managing of user query
图 7 上半部分分析了用户查询的提示管理器案例
输入的图像需要有唯一的命名,以避免被覆盖
3、Case Study of prompt managing of model outputs
如图 7 下半部分所示
左下角的图片比较了删除和保留链式命名规则的性能。使用链式命名规则,Visual ChatGPT 可以识别文件类型,触发正确的VFM,并得出文件依赖关系命名规则。
链式命名规则确实有助于 Visual ChatGPT 的理解。
右下角的图片给出了一个当项目推断不明确时要求更多细节的例子,这也表明了系统的安全性

1、强依赖于 ChatGPT 和 VFMs
2、需要不断的提示,会比较耗时,并且学专业的语言和图像的知识
3、实时能力有限
4、token 长度限制可能会限制可使用的语言模型的数量
5、因为 Visual ChatGPT 能够方便的使用基础模型,可能还包括一些远程模型,可能会导致敏感数据泄露
本文算是首次将 ChatGPT 和多种计算机视觉基础模型进行结合的案例,通过设计一系列的提示,能够逐步将视觉信息注入 ChatGPT 中,实现对视觉输入的理解和生成。但也有很多限制,比如耗时较长,很依赖于基础模型,执行结果和人类期望是否一致等。



我想将html转换为纯文本。不过,我不想只删除标签,我想智能地保留尽可能多的格式。为插入换行符标签,检测段落并格式化它们等。输入非常简单,通常是格式良好的html(不是整个文档,只是一堆内容,通常没有anchor或图像)。我可以将几个正则表达式放在一起,让我达到80%,但我认为可能有一些现有的解决方案更智能。 最佳答案 首先,不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案,它会随着HTML的变化而崩溃,或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h
我有带有Logo图像的公司模型has_attached_file:logo我用他们的Logo创建了许多公司。现在,我需要添加新样式has_attached_file:logo,:styles=>{:small=>"30x15>",:medium=>"155x85>"}我是否应该重新上传所有旧数据以重新生成新样式?我不这么认为……或者有什么rake任务可以重新生成样式吗? 最佳答案 参见Thumbnail-Generation.如果rake任务不适合你,你应该能够在控制台中使用一个片段来调用重新处理!关于相关公司
我正在尝试使用Ruby2.0.0和Rails4.0.0提供的API从imgur中提取图像。我已尝试按照Ruby2.0.0文档中列出的各种方式构建http请求,但均无济于事。代码如下:require'net/http'require'net/https'defimgurheaders={"Authorization"=>"Client-ID"+my_client_id}path="/3/gallery/image/#{img_id}.json"uri=URI("https://api.imgur.com"+path)request,data=Net::HTTP::Get.new(path
2022/8/4更新支持加入水印水印必须包含透明图像,并且水印图像大小要等于原图像的大小pythonconvert_image_to_video.py-f30-mwatermark.pngim_dirout.mkv2022/6/21更新让命令行参数更加易用新的命令行使用方法pythonconvert_image_to_video.py-f30im_dirout.mkvFFMPEG命令行转换一组JPG图像到视频时,是将这组图像视为MJPG流。我需要转换一组PNG图像到视频,FFMPEG就不认了。pyav内置了ffmpeg库,不需要系统带有ffmpeg工具因此我使用ffmpeg的python包装p
目录前言一、什么是AIGC?1、什么是PGC?2、什么是UGC?3、什么是PUCG?4、什么是AIGC?二、总结前言很明显,ChatGPT的爆火,带动了AIGC(AI-GeneratedContent)概念的火热。一、什么是AIGC?GC,全称GeneratedContent,是指创作内容。与之相对应的概念中,有PGC、UGC、PUGC、AIGC。1、什么是PGC?PGC,全称ProfessionalGeneratedContent,指专业生产内容。专业生产内容模式,主要表现为由专家或者机构来进行内容的生产,具备专业的内容生产能力,能够保证内容的专业性。主要应用在知识付费、在线教育、学习平台等
这是针对我无法破坏的现有公共(public)API,但我确实希望对其进行扩展。目前,该方法采用字符串或符号或任何其他在作为第一个参数传递给send时有意义的内容我想添加发送字符串、符号等列表的功能。我可以只使用is_a吗?数组,但还有其他发送列表的方法,这不是很像ruby。我将调用列表中的map,所以第一个倾向是使用respond_to?:map。但是字符串也会响应:map,所以这行不通。 最佳答案 如何将它们全部视为数组?String的行为与仅包含String的Array相同:deffoo(obj,arg)[*arg].eac
有这样的事吗?我想在Ruby程序中使用它。 最佳答案 试试这个http://csl.sublevel3.org/jp2a/此外,Imagemagick可能还有一些东西 关于ruby-是否有将图像文件转换为ASCII艺术的命令行程序或库?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/6510445/
我正在使用Dragonfly在Rails3.1应用程序上处理图像。我正在努力通过url将图像分配给模型。我有一个很好的表格:{:multipart=>true}do|f|%>RemovePicture?Dragonfly的文档指出:Dragonfly提供了一个直接从url分配的访问器:@album.cover_image_url='http://some.url/file.jpg'但是当我在控制台中尝试时:=>#ruby-1.9.2-p290>picture.image_url="http://i.imgur.com/QQiMz.jpg"=>"http://i.imgur.com/QQ
我对图像处理完全陌生。我对JPEG内部是什么以及它是如何工作一无所知。我想知道,是否可以在某处找到执行以下简单操作的ruby代码:打开jpeg文件。遍历每个像素并将其颜色设置为fx绿色。将结果写入另一个文件。我对如何使用ruby-vips库实现这一点特别感兴趣https://github.com/ender672/ruby-vips我的目标-学习如何使用ruby-vips执行基本的图像处理操作(Gamma校正、亮度、色调……)任何指向比“helloworld”更复杂的工作示例的链接——比如ruby-vips的github页面上的链接,我们将不胜感激!如果有ruby-
我有这个代码:context"Visitingtheusers#indexpage."dobefore(:each){visitusers_path}subject{page}pending('iii'){shouldhave_no_css('table#users')}pending{shouldhavecontent('Youhavereachedthispageduetoapermissionic错误')}它会导致几个待处理,例如ManagingUsersGivenapractitionerloggedin.Visitingtheusers#indexpage.#Noreason