AIGC、ChatGPT、GPT系列？我的认识

Conda的编程杂货铺 2024-01-13 原文

AIGC（AI generated content），新型内容生产方式。AIGC是利用人工智能技术来生成内容，也就是，它可以用输入数据生成相同或不同类型的内容，比如输入文字、生成文字，输入文字、生成图像等。

GPT-3是生成型的预训练变换模型，是一个自回归语言模型，神经网络包括1750亿个参数，在2020年5月发布论文。最新的GPT-3.5是GPT-3微调出来的版本。ChatGPT建立在GPT-3.5基础上，使用人类反馈强化学习去训练，所以能根据对话调整，带来更为复杂的互动效果，达到更逼近真人的效果。

而ChatGPT就是AIGC技术展示的成果。实际上ChatGPT就是一个大型的预训练语言生成模型，它使用了Transformer神经网络架构，也是GPT-3.5架构。

ChatGPT学习的四阶段：

1.学习文字接龙

2.人类老师引导文字接龙的方向

3.模仿人类老师的喜好（特征）

4.用增强式学习向模拟老师学习

1.让不完整的句子通过现有的数据预测下面的文字，从而达到文字接龙。

2.人工筛选哪些是好的、对的、应该被期望的答案，打高分。（训练一个打分模型）（人工标注的数据集：问题、答案、人类打的分）（第一个打分的数据集是基线。后面每次再做其他人工标注的数据集）

3.人类希望获得的答案就会被赋予更高分数。（引导GPT输出（说）人类要它说的）。（让打分模型根据排序进行打分）

4.每次将GPT得到的答案再丢给人类判断，是人类希望的回答就给高分，不是就给低分，这种模式称为增强式学习中的Reward模块。（每次让基线模型和打分模型就行对抗，不断优化）

ChatGPT并不完美，只要问些没人问过的问题（冷门问题不涵盖在数据集中），它就会给出错误的答案。另外，找文献的时候有概率是瞎编的。

GPT-3的社会负面影响：它可能被拿来生成假新闻、垃圾邮件，以及论文造假。由于GPT-3 的训练数据来自网络，其中包含了一些性别、宗教、种族歧视的信息，导致GPT-3 的生成文本也有同样的问题。

在某一个特定的任务上，某些利用带标号的文本数据的算法表现可能会超过GPT-3。但GPT-3的强大之处在于它的泛化能力。不需要微调，只需要在输入序列里用自然语言表述任务要求，就可以让网络执行不同的子任务，这是GPT-3令人惊艳的地方。

一、GPT系列发展介绍：

1.GPT-1（已开源）

首个GPT系列模型GPT-1诞生于2018年，也就是我们常说的NLP预训练模型元年。性能方面，GPT-1有着一定的泛化能力，能够用于和监督任务无关的NLP任务中。其常用任务包括：

自然语言推理：判断两个句子的关系（包含、矛盾、中立）

问答与常识推理：输入文章及若干答案，输出答案的准确率

语义相似度识别：判断两个句子语义是否相关

分类：判断输入文本是指定的哪个类别

虽然GPT-1在未经调试的任务上有一些效果，但其泛化能力远低于经过微调的有监督任务，因此GPT-1只能算得上一个还算不错的语言理解工具而非对话式AI。

2.GPT-2（已开源）

于2019年如期而至。相比于GPT-1，GPT-2并没有对原有的网络进行过多的结构创新与设计，只使用了更多的网络参数与更大的数据集：最大模型共计48层，参数量达15亿，学习目标则使用无监督预训练模型做有监督任务。

在性能方面，OpenAI的大力似乎真的带来了一些奇迹。除了理解能力外，GPT-2在生成方面第一次表现出了强大的天赋：阅读摘要、聊天、续写、编故事，甚至生成假新闻、钓鱼邮件或在网上扮演他人通通不在话下。在“变得更大”之后，GPT-2的确展现出了一些列普适而强大的能力，并在多个特定的语言建模任务上实现了彼时的最佳性能。

3.GPT-3（未开源）

自GPT-2取得成功以来，OpenAI对“大力神教”的信仰愈发坚定，2020年放出的GPT-3继续沿用微创新、猛扩大的发展思路。除了GPT-3中的Transformer应用了Sparse结构外，GPT-3与GPT-2的结构几乎没有区别。而在“大力”方面，GPT-3的模型上到了96层，训练参数则是达到了1750亿个（GPT-2的10倍以上）。

而GPT-3也再次证明了OpenAI的眼光，由于GPT-3更强的性能和明显更多的参数，它包含了更多的主题文本，显然优于前代的GPT-2。作为目前最大的密集型神经网络，GPT-3能够将网页描述转换为相应代码、模仿人类叙事、创作定制诗歌、生成游戏剧本，甚至模仿已故的各位哲学家——预测生命的真谛。且GPT-3不需要微调，在处理语法难题方面，它只需要一些输出类型的样本（少量学习）。可以说GPT-3似乎已经满足了我们对于语言专家的一切想象。

4.GPT-3.5（未开源）

GPT-3的微调版本，比如ChatGPT就用了这个。

5.GPT-4预测（OpenAI已经在训练GPT-4，并计划于12月-2月间发布）

GPT-4将很有可能不仅只是一个语言模型。OpenAI首席科学家Ilya Sutskever曾在其撰写的多模态相关文章中暗示过这一点——“文字本身即可表达关于这个世界的大量信息，但毕竟是不完整的，因为我们也生活在视觉世界之中。”因此，业界部分专家认为GPT-4将会是多模态的，可以接受音频、文本、图像甚至是视频输入，并预测OpenAI的Whisper的音频数据集将用于创建GPT-4所需的文本数据。这也意味着GPT-4对于外界信息的接收与处理将不会再有任何局限性。

工业界关注GPT-4的原因，则很有可能是由于GPT-4的实际商用门槛将比传统GPT-3更低。此前由于巨额费用和基础设施原因而未能使用相关技术的企业也将有望使用GPT-4。目前GPT-4已进入上市的最后阶段，将于今年12月至明年2月期间发布。剑桥AI研究公司分析师Alberto Garcia通发表了博客并预测：“GPT-4将更专注于优化数据处理，因此GPT-4的学习成本预计将低于GPT-3。GPT-4的每集学习成本将可能由GPT-3的数百万美元将至100万美元左右”。

二、GPT-1模型结构介绍：

1.GPT介绍

GPT是OpenAI公司提出的一种语言预训练模型.

正是因为训练方法上的区别, 使得GPT更擅长处理自然语言生成任务(NLG), 而BERT更擅长处理自然语言理解任务(NLU).

2.GPT的架构

GPT采用了Transformer架构中的解码器模块.

将传统的3层Decoder Block变成了2层Block, 删除了encoder-decoder attention子层, 只保留Masked Multi-Head Attention子层和Feed Forward子层.

由12个改造后的Decoder Block组成的.

3.GPT训练过程

GPT的训练也是典型的两阶段过程:

第一阶段: 无监督的预训练语言模型. 只利用单词前面的信息来预测当前单词.

第二阶段: 有监督的下游任务fine-tunning.

二、GPT2模型介绍

1.GPT2的架构

GPT2只采用了Transformer架构中的Decoder模块.

GPT2是在GPT基础上发展处的更强大的语言预训练模型.

2.GPT2的工作细节:

GPT2可以处理最长1024个单词的序列.

每个单词都会和它的前序路径一起"流经"所有的解码器模块.

GPT2本质上也是自回归模型.

输入张量要经历词嵌入矩阵和位置编码矩阵的加和后, 才能输入进transformer模块中.

3.GPT2自注意力机制的细节:

首先, GPT2的自注意力是Masked self-attention, 只能看见左侧的序列, 不能看见右侧的信息.

Query, Key, Value这三个张量之间的形象化的例子, 生动的说明了各自的作用和运算方式.

最后的输出可以采用多个方法, 贪心方案, 概率分布方案, 或者top-k方案等.

有关AIGC、ChatGPT、GPT系列？我的认识的更多相关文章

python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
ruby-on-rails - 使用一系列等级计算字母等级 - 2
这里是Ruby新手。完成一些练习后碰壁了。练习:计算一系列成绩的字母等级创建一个方法get_grade来接受测试分数数组。数组中的每个分数应介于0和100之间，其中100是最大分数。计算平均分并将字母等级作为字符串返回，即“A”、“B”、“C”、“D”、“E”或“F”。我一直返回错误:avg.rb:1:syntaxerror,unexpectedtLBRACK,expecting')'defget_grade([100,90,80])^avg.rb:1:syntaxerror,unexpected')',expecting$end这是我目前所拥有的。我想坚持使用下面的方法或.join，
ruby-on-rails - 如何在我的 Rails 应用程序 View 中打印 ruby 变量的内容？ - 2
我是一个Rails初学者，但我想从我的RailsView(html.haml文件)中查看Ruby变量的内容。我试图在ruby中打印出变量(认为它会在终端中出现)，但没有得到任何结果。有什么建议吗？我知道Rails调试器，但更喜欢使用inspect来打印我的变量。最佳答案您可以在View中使用puts方法将信息输出到服务器控制台。您应该能够在View中的任何位置使用Haml执行以下操作:-puts@my_variable.inspect 关于ruby-on-rails-如何在我的R
ruby - 我可以将我的 README.textile 以正确的格式放入我的 RDoc 中吗？ - 2
我喜欢使用Textile或Markdown为我的项目编写自述文件，但是当我生成RDoc时，自述文件被解释为RDoc并且看起来非常糟糕。有没有办法让RDoc通过RedCloth或BlueCloth而不是它自己的格式化程序运行文件？它可以配置为自动检测文件后缀的格式吗？(例如README.textile通过RedCloth运行，但README.mdown通过BlueCloth运行) 最佳答案使用YARD直接代替RDoc将允许您包含Textile或Markdown文件，只要它们的文件后缀是合理的。我经常使用类似于以下Rake任务的东西:
jquery - 我的 jquery AJAX POST 请求无需发送 Authenticity Token (Rails) - 2
rails中是否有任何规定允许站点的所有AJAXPOST请求在没有authenticity_token的情况下通过？我有一个调用Controller方法的JqueryPOSTajax调用，但我没有在其中放置任何真实性代码，但调用成功。我的ApplicationController确实有'request_forgery_protection'并且我已经改变了config.action_controller.consider_all_requests_local在我的environments/development.rb中为false我还搜索了我的代码以确保我没有重载ajaxSend来发送
java - 我的模型类或其他类中应该有逻辑吗 - 2
我只想对我一直在思考的这个问题有其他意见，例如我有classuser_controller和classuserclassUserattr_accessor:name,:usernameendclassUserController//dosomethingaboutanythingaboutusersend问题是我的User类中是否应该有逻辑user=User.newuser.do_something(user1)oritshouldbeuser_controller=UserController.newuser_controller.do_something(user1,user2)我
亚特兰蒂斯的回声（中文版): chatGPT 的杰作 - 2
英文版英文链接关注公众号在“亚特兰蒂斯的回声”中踏上一段难忘的冒险之旅，深入未知的海洋深处。足智多谋的考古学家AriaSeaborne偶然发现了一件古代神器，揭示了一张通往失落之城亚特兰蒂斯的隐藏地图。在她神秘的导师内森·兰登教授的指导和勇敢的冒险家亚历克斯·默瑟的帮助下，阿丽亚开始了一段危险的旅程，以揭开这座传说中城市的真相。他们的冒险之旅带领他们穿越险恶的大海、神秘的岛屿和充满陷阱和谜语的致命迷宫。随着Aria潜在的魔法能力的觉醒，她被睿智勇敢的QueenNeria的幻象所指引，她让她为即将到来的挑战做好准备。三人组揭开亚特兰蒂斯令人惊叹的隐藏文明，并了解到邪恶的巫师马拉卡勋爵试图利用其古
【鸿蒙应用开发系列】- 获取系统设备信息以及版本API兼容调用方式 - 2
在应用开发中，有时候我们需要获取系统的设备信息，用于数据上报和行为分析。那在鸿蒙系统中，我们应该怎么去获取设备的系统信息呢，比如说获取手机的系统版本号、手机的制造商、手机型号等数据。1、获取方式这里分为两种情况，一种是设备信息的获取，一种是系统信息的获取。1.1、获取设备信息获取设备信息，鸿蒙的SDK包为我们提供了DeviceInfo类，通过该类的一些静态方法，可以获取设备信息，DeviceInfo类的包路径为：ohos.system.DeviceInfo.具体的方法如下：ModifierandTypeMethodDescriptionstatic StringgetAbiList()Obt
阿里云RDS——产品系列概述 - 2
基础版云数据库RDS的产品系列包括基础版、高可用版、集群版、三节点企业版，本文介绍基础版实例的相关信息。RDS基础版实例也称为单机版实例，只有单个数据库节点，计算与存储分离，性价比超高。说明RDS基础版实例只有一个数据库节点，没有备节点作为热备份，因此当该节点意外宕机或者执行重启实例、变更配置、版本升级等任务时，会出现较长时间的不可用。如果业务对数据库的可用性要求较高，不建议使用基础版实例，可选择其他系列（如高可用版），部分基础版实例也支持升级为高可用版。基础版与高可用版的对比拓扑图如下所示。优势性能由于不提供备节点，主节点不会因为实时的数据库复制而产生额外的性能开销，因此基础版的性能相对于
什么是AIGC？ - 2
目录前言一、什么是AIGC？1、什么是PGC？2、什么是UGC？3、什么是PUCG？4、什么是AIGC？二、总结前言很明显，ChatGPT的爆火，带动了AIGC（AI-GeneratedContent）概念的火热。一、什么是AIGC？GC，全称GeneratedContent，是指创作内容。与之相对应的概念中，有PGC、UGC、PUGC、AIGC。1、什么是PGC？PGC，全称ProfessionalGeneratedContent，指专业生产内容。专业生产内容模式，主要表现为由专家或者机构来进行内容的生产，具备专业的内容生产能力，能够保证内容的专业性。主要应用在知识付费、在线教育、学习平台等