ChatGPT 全面解析

池佳齐 2023-04-21 原文

ChatGPT问世

12月1日，美国人工智能公司OpenAI在网页上推出自然语言处理领域（NLP）的模型ChatGPT，它能够通过对话方式进行交互，并根据用户输入的自然语言文本内容，自动生成新的文本内容。一周内，ChatGPT的用户已突破100万。

他拥有持续的上下文对话能力，同时支持文章写作、诗词生成、代码生成等能力。

如果用旧技术去理解他，我们通常会认为他的背后是由复合Agent组合起来支撑的。

复合Agent是什么意思呢？即有若干个术业有专攻的Agent：有一个负责聊天对话的，一个负责诗词生成的，一个负责代码生成的，一个负责写营销文案的等等等等。

每个Agent只擅长做自己的那部分事情，而在用户使用的过程中，系统会先判定用户的意图是什么，应该是哪个Agent，然后再将用户的命令分发给对应的agent去解决并提供答案。

因此看起来是很厉害的机器人，背后其实是若干个术业有专攻的机器人。事实上Siri、小爱、小度，小冰甚至包括各个平台的客服机器人都是这种模式。这样当你要上线一个新能力（例如写古诗），你只需要新增训练一个Agent，然后将这个Agent接入到总控的分类意图器下就行。

这也是当前时代的一个缩影，不管外行人如何看待你从事的行业，不管媒体是如何一次次人云亦云地说警惕AI取代人类，你一直都知道，你在做的只是训练出一个术业有专攻的机器人而已，离真正的人工智能十万八千里。

但ChatGPT的能力不再是这种模式了，他所采用的模式是大语言模型+Prompting。所有的能力通过一个模型实现，背后只有一个什么都会的机器人（即大语言模型），并支持用户借助文字下达命令（即Prompting，提示/指示）。

虽然这种能力的表现还不算完美，但是他开启了一条一种通向“通用型人工智能”的道路。

ChatGPT的技术原理

首先，我们要弄明白，NLP任务（自然语言处理，AI的一个技术领域，即文本类的AI任务）的核心逻辑是一个“猜概率”的游戏。

比如说，“我今天被我老板___”，经过大量的数据训练后，AI预测空格出会出现的最高概率的词是“CPU了”，那么CPU就会被填到这个空格中，从而答案产生——“我今天被我老板CPU了”。

虽然非常不可思议，但事实就是这样，现阶段所有的NLP任务，都不意味着机器真正理解这个世界，他只是在玩文字游戏，进行一次又一次的概率解谜，本质上和我们玩报纸上的填字游戏是一个逻辑。只是我们靠知识和智慧，AI靠概率计算。

而在目前的“猜概率”游戏环境下，基于大型语言模型（LLM，Large Language Model）演进出了最主流的两个方向，即Bert和GPT。

其中BERT是之前最流行的方向，几乎统治了所有NLP领域，并在自然语言理解类任务中发挥出色（例如文本分类，情感倾向判断等）。

而GPT方向则较为薄弱，最知名的玩家就是OpenAI了，事实上在GPT3.0发布前，GPT方向一直是弱于BERT的（GPT3.0是ChatGPT背后模型GPT3.5的前身）。

接下来我们详细说说BERT和GPT两者之间的差别。

BERT：双向预训练语言模型+fine-tuning（微调）
GPT：自回归预训练语言模型+Prompting（指示/提示）

每个字都认识，连到一起就不认识了是吗哈哈。没关系，接下来我们把这些术语逐个拆解一遍就懂了。

1. 「预训练语言模型」

我们通常认知里的AI，是针对具体任务进行训练。例如一个能分辨猫品种的Agent，需要你提供A-缅因猫，B-豹猫这样的数据集给他，让它学习不同品种之间的特征差异，从而学会分辨猫品种这项能力。

但大语言模型不是这样运作的，他是通过一个大一统模型先来认识这个世界。再带着对这个世界的认知对具体领域进行降维打击。

在这里让我们先从从NLP领域的中间任务说起。像中文分词，词性标注，NER，句法分析等NLP任务。他们本身无法直接应用，不产生用户价值，但这些任务又是NLP所依赖的，所以称之为中间任务。

在以前，这些中间任务都是NLP领域必不可少的。但是随着大型语言模型的出现，这些中间任务事实上已经逐步消亡。而大型语言模型其实就是标题中的“语言预训练模型”。

他的实现方式是将海量的文本语料，直接喂给模型进行学习，在这其中模型对词性、句法的学习自然而然会沉淀在模型的参数当中。我们看到媒体对ChatGPT铺天盖地的宣传里总是离不开这样一句话——在拥有3000亿单词的语料基础上预训练出的拥有1750亿参数的模型。

这里面3000亿单词就是训练数据。而1750亿参数就是沉淀下来的AI对这个世界的理解，其中一部分沉淀了Agent对各类语法、句法的学习（例如应该是两个馒头，而不是二个馒头，这也是中间任务为什么消亡的原因）。而另外一部分参数参数则储存了AI对于事实的认知（例如美国总统是拜登）。

也就是经过预训练出一个这样的大语言模型后，AI理解了人类对语言的使用技巧（句法、语法、词性等），也理解了各种事实知识，甚至还懂得了代码编程，并最终在这样的一个大语言模型的基础上，直接降维作用于垂直领域的应用（例如闲聊对话，代码生成，文章生成等）。

而BERT和GPT两者都是基于大语言模型的，他们在这一点上是相同的。他们的不同在于双向/自回归，fine-tuning/Prompting这两个维度，我们接下来会重点弄明白这四个术语。

2. 「双向 VS 自回归」

BERT：双向。双向是指这个模型在“猜概率的时候”，他是两个方向的信息利用起来同时猜测。例如“我__20号回家”，他在预测的时候，是同时利用“我”+“20号回家”两端的信息来预测空格中的词可能为“打算”。有点像我们做英文的完形填空，通常都是结合空格两端的信息来猜测空格内应该是哪个单词。

GPT：自回归。自回归就是猜概率的时候从左往右做预测，不会利用文本中右侧的内容，和BERT相反。这就有点像我们写作文的时候，我们肯定是一边写一边想。

两者基本理念的区别导致BERT在之前更擅长自然语言理解类任务，而GPT更擅长自然语言生成类任务（例如聊天、写作文）。——注意，我说的是之前，后面的章节我会介绍现在的情况发生了什么变化。

「fine-tuning VS Prompting」

假设现在预训练好的大模型要针对具体领域工作了，他被安排成为一名鉴黄师，要分辨文章到底有没有在搞黄色。那么BERT和GPT的区别在哪里呢？

BERT：fine-tuning（微调）。微调是指模型要做某个专业领域任务时，需要收集相关的专业领域数据，做模型的小幅调整，更新相关参数。

例如，我收集一大堆标注数据，A-是黄色，B-没有搞黄色，然后喂给模型进行训练，调整他的参数。经过一段时间的针对性学习后，模型对于分辨你们是否搞黄色的能力更出色了。这就是fine-tuning，二次学习微调。

GPT：Prompting。prompt是指当模型要做某个专业领域的任务时，我提供给他一些示例、或者引导。但不用更新模型参数，AI只是看看。

例如，我提供给AI模型10张黄色图片，告诉他这些是搞黄色的。模型看一下，效果就提升了。大家可能会说，这不就是fine-tuning吗？不是一样要额外给一些标注数据吗？

两者最大的区别就是：这种模式下，模型的参数不会做任何变化升级，这些数据就好像仅仅是给AI看了一眼——嘿，兄弟，参考下这个，但是别往心里去。

不可思议吧，但他成功了！而更令人疯狂的是，到目前为止，关于prompt明明没有对参数产生任何影响，但确实又明显提升了任务的效果，还是一个未解之谜。暂时而言大家就像程序员对待bug一样——I don’t know why , but it work lol.

这种Prompt其实就是ICT（in-Context Learning），或者你也可以称为Few shot Promot，用大白话说就是“给你一点小提示”。

同时还有另外一种Promot，称之为Zero shot Promot。ChatGPT就是Zero shot promot模式，目前一般称之为instruct了。

这种模式下用户直接用人类的语言下达命令，例如“给我写首诗”，“给我做个请教条”，但是你可以在命令的过程中用一些人类语言增强AI的效果，例如“在输出答案之前，你先每一步都想一想”。就只是增加这样一句话，AI的答案效果就会明显提升。

你可能会问这是什么魔法咒语？！

有一个比较靠谱的猜测是这句话可能让AI回想起了学习的资料中那些推理知识好像前面都会有这句话。

然后这一切莫名激活起了他死去的记忆，不自觉开始仿造那些严密的推理过程中一步步推导。而这些推导会将一个复杂问题分解成若干子问题，AI因为对这些子问题的推导，从而导致最终答案效果提升。

综上对比下来，你会发现好像GPT这种模式比起BERT模式更符合我们对人工智能的想象：通过海量的知识成长起来，然后经过稍微引导（Prompt），他就能具备不同领域的强大能力。

最后总结一下，ChatGPT背后的GPT模型是什么？

在一个超大语料基础上预训练出的大语言模型（LLM），采用从左到右进行填字概率预测的自回归语言模型，并基于prompting（提示）来适应不同领域的任务。

GPT厉害在哪里

1. 他可能是通用型人工智能的开始

在我们原始的幻想里，AI是基于对海量数据的学习，锻炼出一个无所不知无所不能的模型，并借助计算机的优势（计算速度、并发可能）等碾压人类。

但我们目前的AI，不管是AlphaGo还是图像识别算法，本质上都是服务于专业领域的技术工人。

而GPT目前看似只能解决自然生成领域的任务，但实际上，他展现出了通用型人工智能的潜力。

在前面，我们讲过，目前而言，BERT擅长自然语言理解类任务（完形填空），GPT擅长自然语言生成类任务（写作文）。

但在Google的FLAN-T5模型上已经实现了两类任务在输入输出形式上的统一，从而使得用GPT来做完形填空成为可能。也就是可以用一个大模型来解决所有NLP领域的问题。

那么再进一步地，是否GPT可以从NLP领域走向其他AI领域呢？当然有可能！在去年年中爆火的AI绘画，其中一个关键技术门槛其实就是Text-图像的转化，这同样是来自OpenAI所开源的CLIP模型实现。

因此GPT在图像领域的能力同样也令人期待。同理在多模态如音频、视频，本质上也能转化为Text-everthing的问题去求解，从而让大语言模型发挥成吨的威力。

当然你可能会问，那么只要大语言模型就可以呀，为什么是GPT，而不是BERT呢？接着往下看。

2、Promot模式相较fine-tuning更具生命力

事实上，BERT的fine-tuning模式有两个痛点。

我需要准备某个专业领域的标注数据，这个数据还不能少，如果太少，AI模型训练后就会形成过拟合（就是AI直接背下了整本习题册，册里的问题100%正确回答，但是稍微变幻题型就GG）。
我需要部署大语言模型，才能对他进行进行微调，那么部署大语言模型的成本，甚至进一步对他进行微调的能力，并不是所有公司都具备的。这注定是一个只有少数玩家能参与的游戏。

而Promot模式恰恰相反，不需要太多的数据量，不需要对模型参数进行改动（也就意味着可以不部署模型，而是接入公开的大语言模型服务）。那么他的调试就会呈现百花齐放的姿态，玩家越多，创造力涌现就越猛烈。

3、全新的人机交互方式

这里的人机交互，指的是人-模型之间的交互。

目前ChatGPT采用的是模型侧的Few shot prompt，即给一点示例提示，让AI提升表现，虽然暂时未知为什么不更新模型仅仅只是给AI看一眼就能带来巨幅提升，但这种交互模式无疑是更友好的。

而更具颠覆性的是输入端的Zero shot prompt，即我们用人类的语言逐步引导AI思考——比如我们可以说，你仔细想好步骤，再给出答案。就仅仅是多加一句“你仔细想好步骤”，AI的答案靠谱率就会明显提升。

而这种交互方式的演变，就是我们梦想中的人机交互模式。我不需要专业的能力，不需要高端的设备，我就是开口，说出我的诉求，AI就能够理解并帮我实现。

4. GPT开始尝试讨好人类，并成功了

在12月的媒体通稿里，一大堆对ChatGPT的溢美集中于他的“仿真性”，仿佛通过了图灵测试一般。

而这种仿真性，直观来说，我们会认为是AI的“智力”提升了，他更聪明了。但实际上，ChatGPT背后的GPT3.5，更多的提升在于“用人类所喜欢的方式回答”。

事实上ChatGPT背后的GPT3.5的模型，相较GPT3.0，他并没有在原始训练语句上增加太多（还是那3000亿语料）并且模型参数也没有太大变化（还是1750亿参数，甚至参数可能都没有变化）。

之所以他会让人产生质变的感觉是因为他做了人类偏好处理。

例如以前的输入模式可能需要这样：> 执行翻译任务> 输入是“我爱北京天安门（中文）”> 翻译目标语种是英文”而现在你直接说：> 帮我把我爱北京天安门翻译成法语

又或者是，以前你提一个问题，他会不加选择的回答，而现在他会考虑答案有害性：> 如何毁灭世界——你可以召唤三体人降临（此处应有一个潘寒hhh）> 如何毁灭世界——亲，请不要毁灭世界，地球是人类共同的家园。

而这些对于人类偏好的攻略依赖于三个步骤：

创建人类偏好数据。随机挑选一些问题，并由标注人员给出高质量回答，形成“人类表达-任务结果”的标注数据，喂给模型，让它学习——这批数据数量仅有数万，并通过Prompt模式进行，即模型参数不产生变化。
训练一个回报模型。随机挑选一些问题，让原始模型输出答案，再由标注人员基于“人类偏好标准”（例如相关性，信息丰富程度，答案有害，负面情感等），对原始模型的答案做一个排序。然后我们利用这批标注好的“人类偏好”数据，训练一个回报模型，这个回报模型会对原始模型的结果进行打分，告诉他什么答案分高，什么答案分低。
通过强化学习循环整个过程。强化学习会将回报模型和原始模型链接到一起，当原始模型输出的结果，在回报模型中获得较低分值，他就收到惩罚，被要求重新学习。

后续不断循环步骤2和步骤3，原始模型就会脱胎换骨，学习到人类的偏好，变成一个人类所喜欢的模型，也就是我们最终所看到的ChatGPT。

这让我们有理由相信，模型的表现不好，不一定是他没学到知识，可能只是他不知道对于人类而言，哪种答案才是人类想要的。

而这种人类偏好学习，目前来看是集中在Prompt模式下的GPT的，而非fine-tuning模式下的BERT。

GPT缺点

首先，落地成本高。

ChatGPT的复现依托于大模型，他的落地有三种路径：

基于instruct GPT复现（ChatGPT的姐妹模型，有公开paper）
基于OpenAI目前开放的GPT3.0付费接口落地，再结合具体场景进行fine-tuning，目前刊例价费用是25000token/美元，换算国内价格约3700token/元
基于OpenAI试点中的ChatGPT PRO落地，42美元/月，换算后约284元/月

第一种路径依赖于新玩家的进入，但大概只能是大玩家的赛道。第二种和第三种路径需要打平付费接口的成本，需要针对的场景具备足够价值。

当然成本的问题可以期待被快速解决，就像AI绘画领域一样。不过目前而言，成本仍然是ChatGPT落地的一个制约因素。

最重要的是ChatGPT目前的能力仍然存在缺陷：

结果不稳定。这会导致无法直接应用，必定需要人工review，更多是瞄准辅助性场景或本身就不追求稳定的场景。
推理能力有限。例如询问现在的美国总统是谁，会回答奥巴马，或特朗普，但又能回答出拜登是46届总统。我们可以发现模型中事实存在，但他无法推理出正确答案。如果要优化，一方面是输入的时候，可以通过Prompt逐步引导，另一方面是在模型侧的Few Shot Prompt环节中采用思维链技术（CoT,Chain of Thought）或采用代码数据集来改进。就目前而言，进展可喜，但能力仍然有限。
知识更新困难。一方面整个模型的重新训练成本很大，另一方面知识更新也会带来知识遗忘的隐忧，即你不知道他这次更新是不是在学会什么的同时，也忘记了什么。也就是说ChatGPT在解决这个问题之前，他的知识将始终落后一段时间。

综上，ChatGPT很惊艳，但更多在于它的潜力和未来，基于当下要做应用的话是需要做非常多适配和场景探索的。接下来进入我们第三部分，探索ChatGPT为代表的GPT大语言模型应用方向。

本文来源

万字长文：AI产品经理视角下的ChatGPT全解析 | 人人都是产品经理

ChatGPT 全面 xff0c xff xff0 人工智能深度学习

有关ChatGPT 全面解析的更多相关文章

Ruby 解析字符串 - 2
我有一个字符串input="maybe(thisis|thatwas)some((nice|ugly)(day|night)|(strange(weather|time)))"Ruby中解析该字符串的最佳方法是什么？我的意思是脚本应该能够像这样构建句子:maybethisissomeuglynightmaybethatwassomenicenightmaybethiswassomestrangetime等等，你明白了......我应该一个字符一个字符地读取字符串并构建一个带有堆栈的状态机来存储括号值以供以后计算，还是有更好的方法？也许为此目的准备了一个开箱即用的库？
ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby - 用逗号、双引号和编码解析 csv - 2
我正在使用ruby1.9解析以下带有MacRoman字符的csv文件#encoding:ISO-8859-1#csv_parse.csvName,main-dialogue"Marceu","Giveittohimóhe,hiswife."我做了以下解析。require'csv'input_string=File.read("../csv_parse.rb").force_encoding("ISO-8859-1").encode("UTF-8")#=>"Name,main-dialogue\r\n\"Marceu\",\"Giveittohim\x97he,hiswife.\"\
ruby-on-rails - 我更新了 ruby gems，现在到处都收到解析树错误和弃用警告! - 2
简而言之错误:NOTE:Gem::SourceIndex#add_specisdeprecated,useSpecification.add_spec.Itwillberemovedonorafter2011-11-01.Gem::SourceIndex#add_speccalledfrom/opt/local/lib/ruby/site_ruby/1.8/rubygems/source_index.rb:91./opt/local/lib/ruby/gems/1.8/gems/rails-2.3.8/lib/rails/gem_dependency.rb:275:in`==':und
世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2
无论您是想搭建桌面端、WEB端或者移动端APP应用，HOOPSPlatform组件都可以为您提供弹性的3D集成架构，同时，由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台（桌面/WEB/APP，而且某些客户端是“瘦”客户端）快速、方便地将数据接入到3D应用系统的解决方案，并且当访问数据时，在各个平台上的性能和用户体验保持一致，HOOPSPlatform将帮助您完成。利用HOOPSPlatform，您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品，HOOPSSDK包含的技术有：快速且准确的CAD
亚特兰蒂斯的回声（中文版): chatGPT 的杰作 - 2
英文版英文链接关注公众号在“亚特兰蒂斯的回声”中踏上一段难忘的冒险之旅，深入未知的海洋深处。足智多谋的考古学家AriaSeaborne偶然发现了一件古代神器，揭示了一张通往失落之城亚特兰蒂斯的隐藏地图。在她神秘的导师内森·兰登教授的指导和勇敢的冒险家亚历克斯·默瑟的帮助下，阿丽亚开始了一段危险的旅程，以揭开这座传说中城市的真相。他们的冒险之旅带领他们穿越险恶的大海、神秘的岛屿和充满陷阱和谜语的致命迷宫。随着Aria潜在的魔法能力的觉醒，她被睿智勇敢的QueenNeria的幻象所指引，她让她为即将到来的挑战做好准备。三人组揭开亚特兰蒂斯令人惊叹的隐藏文明，并了解到邪恶的巫师马拉卡勋爵试图利用其古
ruby - 用 YAML.load 解析 json 安全吗？ - 2
我正在使用ruby2.1.0我有一个json文件。例如:test.json{"item":[{"apple":1},{"banana":2}]}用YAML.load加载这个文件安全吗？YAML.load(File.read('test.json'))我正在尝试加载一个json或yaml格式的文件。最佳答案 YAML可以加载JSONYAML.load('{"something":"test","other":4}')=>{"something"=>"test","other"=>4}JSON将无法加载YAML。JSON.load("
ruby - 如何使用 Nokogiri 解析纯 HTML 表格？ - 2
我想用Nokogiri解析HTML页面。页面的一部分有一个表，它没有使用任何特定的ID。是否可以提取如下内容:Today,3,455,34Today,1,1300,3664Today,10,100000,3444,Yesterday,3454,5656,3Yesterday,3545,1000,10Yesterday,3411,36223,15来自这个HTML:TodayYesterdayQntySizeLengthLengthSizeQnty345534345456563113003664354510001010100000344434113622315
python - 帮我找到合适的 ruby/python 解析器生成器 - 2
我使用的第一个解析器生成器是Parse::RecDescent，它的指南/教程很棒，但它最有用的功能是它的调试工具，特别是tracing功能(通过将$RD_TRACE设置为1来激活)。我正在寻找可以帮助您调试其规则的解析器生成器。问题是，它必须用python或ruby编写，并且具有详细模式/跟踪模式或非常有用的调试技术。有人知道这样的解析器生成器吗？编辑:当我说调试时，我并不是指调试python或ruby。我指的是调试解析器生成器，查看它在每一步都在做什么，查看它正在读取的每个字符，它试图匹配的规则。希望你明白这一点。赏金编辑:要赢得赏金，请展示一个解析器生成器框架，并说明它的
ruby - 如何用 Nokogiri 解析连续的标签？ - 2
我有这样的HTML代码:Label1Value1Label2Value2...我的代码不起作用。doc.css("first").eachdo|item|label=item.css("dt")value=item.css("dd")end显示所有首先标记，然后标记标签，我需要“标签:值” 最佳答案首先，您的HTML应该有和中的元素:Label1Value1Label2Value2...但这不会改变您解析它的方式。你想找到s并遍历它们，然后在每个你可以使用next_element得到;像这样:doc=Nokogiri::HTML(