超越语言界限，ChatGPT进化之路——Visual ChatGPT

Chaos_Wang_ 2023-04-14 原文

❤️觉得内容不错的话，欢迎点赞收藏加关注😊😊😊，后续会继续输入更多优质内容❤️
👉有问题欢迎大家加关注私戳或者评论（包括但不限于NLP算法相关，linux学习相关，读研读博相关......）👈

（封面图由ERNIE-ViLG AI 作画大模型生成）

超越语言界限，ChatGPT进化之路

微软德国公司的首席技术官Andreas Braun在一场名为“AI in Focus - Digital Kickoff”的活动中活动中透露了这一消息，并表示下周将展示GPT的下一次迭代，它将是一个多模态模型，会提供完全不同的可能性——例如视频，这将允许用户创建新型的AI生成内容。他还表示，这项技术已经发展到基本上“适用于所有语言”，因此用户可以用一种语言提问，然后用另一种语言得到答案。这个消息迅速引起了全球科技界、投资者和普通用户的关注，他们都迫不及待地想知道新的GPT有多强大。

当前版本的ChatGPT仅限于基于文本的答案，并使用GPT-3.5。然而，在下一次迭代中，这个限制将被消除。据称，GPT-4将是一项重大更新，具备多模态模型能力，这将显着提升其能力，支持AI生成的视频和其他内容。

此外，就在昨天微软官方在Github开源了一个重量级的ChatGPT AI交互应用Visual ChatGPT。该应用短短一天在Github就达到了7000星。Visual ChatGPT调用ChatGPT以及一系列视觉基础模型来以实现在聊天过程中发送和接收图像，以及动态对图像进行处理。下面让我们一起来看看Visual ChatGPT有多强大吧。

1. Visual ChatGPT 原理（内容还在整理，后续更新中…）

具体内容参见：Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models https://arxiv.org/abs/2303.04671

下面是本人的一些理解：

近年来，大型语言模型（LLM）的发展取得了惊人的进展，如T5，BLOOM和GPT-3。其中最重要的突破之一是ChatGPT，它建立在Instruct-GPT的基础上，专门训练用于与用户进行真正对话，从而使其能够维持当前对话的上下文，处理后续问题，并纠正其自身产生的答案。

然而，由于ChatGPT是单一语言模态训练的，因此在处理视觉信息方面存在局限性，而视觉基础模型（VFMs）在计算机视觉方面具有巨大的潜力，具有理解和生成复杂图像的能力。因此，该文章提出了一个名为Visual ChatGPT的系统，通过将ChatGPT与不同的VFMs集成，使用户能够通过除了语言格式之外的其他方式与ChatGPT进行交互，以解决复杂的视觉问题。Prompt Manager是该系统的关键组成部分，用于协调ChatGPT和VFMs之间的交互，并支持不同视觉格式之间的转换。

通过大量的实验和案例，文章证明了Visual ChatGPT在不同任务中的巨大潜力和能力。同时，该系统也存在一些局限性和问题，如VFMs的不稳定性和自我纠正模块对推理时间的影响，但作者表示将在未来解决这些问题。

虽然ChatGPT在处理自然语言上具有出色的对话能力和推理能力，但它无法处理或生成来自视觉世界的图像。同时，Visual Foundation Models（例如Visual Transformers或Stable Diffusion）虽然在视觉理解和生成方面表现出色，但它们只是特定任务的专家，并且只能接受一次固定输入和输出。为此，作者们创建了一个名为Visual ChatGPT的系统，结合了不同的Visual Foundation Models，使用户能够通过1）发送和接收语言和图像；2）提供需要多个AI模型协作多个步骤的复杂视觉问题或视觉编辑指令；3）提供反馈并要求纠正结果。作者们设计了一系列提示，将视觉模型信息注入ChatGPT，考虑到多个输入/输出模型和需要视觉反馈的模型。实验表明，Visual ChatGPT为研究ChatGPT在视觉角色方面的作用打开了大门。

如图所示，用户上传了一张黄色花朵的图像，并输入了一个复杂的语言指令“请根据预测的深度生成一朵红色花朵，并将其变成卡通风格逐步完成”。在Prompt Manager的帮助下，Visual ChatGPT开始执行相关的Visual Foundation Models。在这种情况下，它首先应用深度估计模型来检测深度信息，然后利用深度到图像模型生成具有深度信息的红花图像，最后利用基于Stable Diffusion模型的风格转移VFM将该图像的样式改变为卡通形式。在上述管道过程中，Prompt Manager通过提供视觉格式的类型并记录信息转换的过程，作为ChatGPT的调度程序。最后，当Visual ChatGPT从Prompt Manager获得“卡通”提示时，它将结束执行管道并显示最终结果。

这篇文章的贡献如下：

提出了Visual ChatGPT，打开了将ChatGPT和视觉基础模型相结合的大门，使ChatGPT能够处理复杂的视觉任务；
设计了Prompt Manager，在其中涉及了22个不同的VFMs，并定义了它们之间的内部相关性，以更好地进行交互和组合；
进行了大量的零样本实验，并展示了Visual ChatGPT的理解和生成能力。

Visual ChatGPT架构由用户查询部分（User Query）、交互管理部分（Prompt Manger）、视觉基础模型（Visual Foundation Models，VFM）、调用ChatGpt API和迭代交互部分（Iterative Reasoning），最后是用户输出（Outputs）部分。

整个系统流程是：

明确告诉 ChatGPT 每个 VFM 的能力并指定输入输出格式；
将不同的视觉信息，例如pngimages，深度图像和mask矩阵，转换为语言格式以帮助ChatGPT理解；
处理不同视觉基础模型的历史、优先级和冲突。

在交互管理器的帮助下，ChatGPT可以利用这些VFMs并以迭代的方式接收他们的反馈，直到它满足用户的要求或达到结束条件。

2. Visual ChatGPT部署流程（Ubuntu系统按照以下流程本人亲试没问题）

（1）首先安装git

Ubuntu环境下运行以下命令下载安装git git简介及常用命令介绍

apt-get install git

（2）然后clone官方开源的Visual ChatGPT源码

运行以下代码下载官方源码：

git clone -b v1 https://github.com/microsoft/visual-chatgpt.git

（3）按照源码说明安装运行环境

进入visual-chatgpt目录

cd visual-chatgpt

然后运行下面命令安装运行环境：

conda create -n visgpt python=3.8
conda activate visgpt
pip install -r requirement.txt

注意，安装运行环境的时候如果需要GPU的话需要手动安装PyTorch的GPU版本。

（4）下载必要的模型文件

bash download.sh

（5）设置ChatGPT的密钥

然后运行下面命令设置密钥

export OPENAI_API_KEY=Your_Private_Openai_Key

把Your_Private_Openai_Key替换成你的OpenAI账号里面生成的密钥就可以。
可以在这个网址获取Api_key:https://platform.openai.com/account/api-keys

这块一定要注意，官方给的说明里面Your_Private_Openai_Key带有{}，这个不要放到命令里面，只需要按照我的说明替换一下即可。

如果是Windows用户的话需要再系统的高级设置里面的环境变量设置里面添加一个名字为OPENAI_API_KEY的环境变量，变量的值为Your_Private_Openai_Key。

（6）运行程序

创建一个文件夹接收图像文件：

mkdir ./image

在visual_chatgpt.py文件中，修改以下内容：

GPU的序号：
在visual_chatgpt.py中，用到了8个GPU，ID分别是0,1,2,3,4,5,6,7：
本人亲测并不需要这么多显卡，3个A100(40GB) GPU已经非常富裕了。

官方给的每个模型的GPU占用情况：

我按照顺序分别将GPU占用修改成0,1,2,这样只需要三个GPU就能完成部署。

如果GPU不是特别富裕的话，极限情况下两个GPU（A100-40GB）也是完全可以的，只需要将前7个放到第一张显卡，后6个放到第二张显卡就可以。

部署的IP
修改最后一行的server_name和server_port为自己想要设定的即可，本地部署的话可以将server_name设定为127.0.0.1。

最后，运行下面的脚本运行程序

python visual_chatgpt.py

常见运行报错

如果出现：

ImportError: libSM.so.6: cannot open shared object file: No such file or directory

则运行下面脚本解决：

apt-get install build-essential libglib2.0-0 libsm6 libxext6 libxrender-dev

如果在docker环境中部署，在import cv2的时候会出现如下错误：

Importerror: libgl.so.1: cannot open shared object file: no such file or directory

使用下面命令解决：

apt-get install ffmpeg libsm6 libxext6  -y

参考文献

[1] Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models https://arxiv.org/abs/2303.04671
[2] visual-chatgpt https://github.com/microsoft/visual-chatgpt

有关超越语言界限，ChatGPT进化之路——Visual ChatGPT的更多相关文章

ruby - 如何将脚本文件的末尾读取为数据文件(Perl 或任何其他语言) - 2
我正在寻找执行以下操作的正确语法(在Perl、Shell或Ruby中):#variabletoaccessthedatalinesappendedasafileEND_OF_SCRIPT_MARKERrawdatastartshereanditcontinues. 最佳答案 Perl用__DATA__做这个:#!/usr/bin/perlusestrict;usewarnings;while(){print;}__DATA__Texttoprintgoeshere 关于ruby-如何将脚
ruby - 寻找通过阅读代码确定编程语言的ruby gem？ - 2
几个月前，我读了一篇关于rubygem的博客文章，它可以通过阅读代码本身来确定编程语言。对于我的生活，我不记得博客或gem的名称。谷歌搜索“ruby编程语言猜测”及其变体也无济于事。有人碰巧知道相关gem的名称吗？最佳答案是这个吗:http://github.com/chrislo/sourceclassifier/tree/master 关于ruby-寻找通过阅读代码确定编程语言的rubygem？，我们在StackOverflow上找到一个类似的问题：
报告回顾丨模型进化狂飙，DetectGPT能否识别最新模型生成结果？ - 2
导读语言模型给我们的生产生活带来了极大便利，但同时不少人也利用他们从事作弊工作。如何规避这些难辨真伪的文字所产生的负面影响也成为一大难题。在3月9日智源Live第33期活动「DetectGPT：判断文本是否为机器生成的工具」中，主讲人Eric为我们讲解了DetectGPT工作背后的思路——一种基于概率曲率检测的用于检测模型生成文本的工具，它可以帮助我们更好地分辨文章的来源和可信度，对保护信息真实、防止欺诈等方面具有重要意义。本次报告主要围绕其功能，实现和效果等展开。（文末点击“阅读原文”，查看活动回放。）Ericmitchell斯坦福大学计算机系四年级博士生，由ChelseaFinn和Chri
亚特兰蒂斯的回声（中文版): chatGPT 的杰作 - 2
英文版英文链接关注公众号在“亚特兰蒂斯的回声”中踏上一段难忘的冒险之旅，深入未知的海洋深处。足智多谋的考古学家AriaSeaborne偶然发现了一件古代神器，揭示了一张通往失落之城亚特兰蒂斯的隐藏地图。在她神秘的导师内森·兰登教授的指导和勇敢的冒险家亚历克斯·默瑟的帮助下，阿丽亚开始了一段危险的旅程，以揭开这座传说中城市的真相。他们的冒险之旅带领他们穿越险恶的大海、神秘的岛屿和充满陷阱和谜语的致命迷宫。随着Aria潜在的魔法能力的觉醒，她被睿智勇敢的QueenNeria的幻象所指引，她让她为即将到来的挑战做好准备。三人组揭开亚特兰蒂斯令人惊叹的隐藏文明，并了解到邪恶的巫师马拉卡勋爵试图利用其古
Unity 热更新技术 | （三） Lua语言基本介绍及下载安装 - 2
?博客主页：https://xiaoy.blog.csdn.net?本文由呆呆敲代码的小Y原创，首发于CSDN??学习专栏推荐：Unity系统学习专栏?游戏制作专栏推荐：游戏制作?Unity实战100例专栏推荐：Unity实战100例教程?欢迎点赞?收藏⭐留言?如有错误敬请指正！?未来很长，值得我们全力奔赴更美好的生活✨------------------❤️分割线❤️-------------------------
7个大一C语言必学的程序 / C语言经典代码大全 - 2
嗨~大家好，这里是可莉！今天给大家带来的是7个C语言的经典基础代码~那一起往下看下去把【程序一】打印100到200之间的素数#includeintmain(){ inti; for(i=100;i 【程序二】输出乘法口诀表#includeintmain(){inti;for(i=1;i 【程序三】判断1000年---2000年之间的闰年#includeintmain(){intyear;for(year=1000;year 【程序四】给定两个整形变量的值，将两个值的内容进行交换。这里提供两种方法来进行交换，第一种为创建临时变量来进行交换，第二种是不创建临时变量而直接进行交换。1.创建临时变量来
ruby - 如何保持我不常用的编程语言技能 - 2
关闭。这个问题是off-topic.它目前不接受答案。想改进这个问题吗？Updatethequestion所以它是on-topic用于堆栈溢出。关闭11年前。Improvethisquestion我不经常使用ruby-通常它加起来相当于每两个月或更长时间编写一次脚本。我的大部分编程都是使用C++进行的，这与ruby有很大不同。由于我与ruby之间的差距如此之大，我总是忘记语言的基本方面(比如解析文本文件和其他简单的东西)。我想每天练习一些基本的东西，我想知道是否有一些我可以订阅的网站，并且会向我发送当天的Ruby问题或类似的东西。有人知道这样的站点/Internet服务吗？
ruby-on-rails - 如果特定语言环境中缺少翻译，如何配置 i18n 以使用 en 语言环境？ - 2
如果特定语言环境中缺少翻译，如何配置i18n以使用en语言环境翻译？当前已插入翻译缺失消息。我正在使用RoR3.1。最佳答案找到相似的question这里是答案:#application.rb#railswillfallbacktoconfig.i18n.default_localetranslationconfig.i18n.fallbacks=true#railswillfallbacktoen,nomatterwhatissetasconfig.i18n.default_localeconfig.i18n.fallback
ruby-on-rails - 如何通过 URL 更改语言环境？ - 2
在我的双语Rails4应用程序中，我有一个像这样的LocalesController:classLocalesController用户可以通过此表单更改其语言环境:deflocale_switcherform_tagurl_for(:controller=>'locales',:action=>'change_locale'),:method=>'get',:id=>'locale_switcher'doselect_tag'set_locale',options_for_select(LANGUAGES,I18n.locale.to_s)end这有效。但是，目前用户无法通过URL更改
ruby - 一种语言如何被自身解释(如 Rubinius)？ - 2
我使用Ruby编程已经有一段时间了，现在只使用Ruby的标准MRI实现，但我一直对我经常听到的其他实现感到好奇。前几天我在读有关Rubinius的文章，这是一个用Ruby编写的Ruby解释器。我试着在不同的地方查找它，但我很难弄清楚这样的东西到底是如何工作的。我在编译器或语言编写方面从来没有太多经验，但我真的很想弄明白。一门语言究竟如何才能被自己解释？编译中是否有一个我不明白这有意义的基本步骤？有人可以像我是个白痴一样向我解释这个吗(因为无论如何这都不会太离谱) 最佳答案它比你想象的要简单。Rubinius并非100%用Ruby编