草庐IT

【论文阅读】GPT系列论文详解

长命百岁️ 2023-08-20 原文

文章目录


视频资源参考: mli/paper-reading: 深度学习经典、新论文逐段精读 (github.com)

GPT

Introduction

  • 用无监督文本时的一些困难
    • 不知道用什么样的目标优化函数(损失函数),没有普适性的目标函数
    • 怎样把学到的文本的表示传到下游的子任务中。NLP中子任务差别比较大,没有统一的表示使得表示能够用于所有的子任务上面
  • 本文使用 semi-supervised 方法
  • 使用的架构是 Transformer
    • 作者认为 Transformer在迁移学习时比RNN等更好,能够学习到更健壮的特征。是因为其有更结构化的记忆,能更好地处理长文本信息,从而能更好地抽取句子层面和段落层面的语义信息。
    • 在做迁移的时候,用的是任务相关的表示

Framework

Unsupervised pre-training

使用标准的语言建模(用前面的词预测下一个词)目标来最大化下面的似然:

  • k k k 是窗口大小
  • 使用的多层的 Transformer decoder。预测第 i i i 个词的时候,不会看到后面的词

  • U = ( u − k , ⋯   , u − 1 ) U=(u_{-k},\cdots,u_{-1}) U=(uk,,u1) 是 token 的上下文向量, n n n 是层数, W e W_e We 是 token 的 embedding 矩阵, W p W_p Wp 是位置 embedding 矩阵

与BERT的区别:BERT 用的不是标准的语言模型,在预测一个被 mask 的词时,既能看到前面的,也能看到后面的,所以使用 Transformer encoder预测未来比完形填空更难,GPT 的目标函数更难。(更难,但是天花板更高)

Supervised fine-tuning

在数据集中,每个序列都有一个 label y y y,我们给出序列,来预测 label

  • 输入被放到预训练的模型中,来获得最后一个 transformer block的输出 h l m h_l^m hlm,然后被送到一个额外的线性输出层(带有参数 W y W_y Wy)来预测 y y y

所以就是最大化下面的目标:

  • C C C 是数据集

我们发现,将语言建模作为微调的辅助目标有助于(a)改进监督模型的泛化,(b)加速收敛。因此,最终的目标为:

  • λ \lambda λ 是超参

在 fine-tuning 阶段唯一的额外参数是 W y W_y Wy 和 对分隔符 token 的 embedding

Task-specific input transformations

这里说的是如何将模型用于特定的任务(四个典型任务),其中 start,delim,extract 分别是 开始符,分隔符,抽取符,都是一些特殊的标记

  • Classification(分类):多分类
  • Entailment(蕴涵):三分类问题,前提 蕴涵/不蕴涵/不确定 假设
  • Similarity(相似):二分类问题,判断两段文字是不是相似。因此相似是对称的(a和b相似,b和a也相似),但是我们实验的时候会将文本设定先后顺序。所以我们先将a放前面,再将b放前面构造两个序列
  • Multiple Choice(多选):给n个答案,让模型选择认为正确的答案。做法是,如果有n个答案,就构造n个序列。每个序列都得到一个分数,最后用 softmax 得到正确答案的置信度。

这里的 Transformer 就是我们训练好的模型,可以看到,做下游任务时都不需要改变模型结构

Experiment

是在 BooksCorpus 数据集上训练出来的,里面有7000没有被发表的书

模型大小:用了 12 层 Transformer decoder,每一层的维度是 768。

  • Bert-base 用了 12 层 Transformer encoder,每一层维度也是 768。Bert-base 就是跟 GPT 来对比。
  • Bert-large 用了 24层,每一层维度是 1024,大小是 Bert-base 三倍。可以做这么大是因为它用了更大的数据集(BooksCorpus 800M words + English Wikipedia 2500M words)。

Language Models are Unsupervised Multitask Learners(GPT-2)

Abs

用了 WebText,有百万级别的文本,最大的 GPT-2 模型有 1.5B 参数。

本文的主要卖点是 zero-shot。

Introduction

主流任务都是在一个任务上收集一个数据集,然后来训练。这是因为,当前模型的泛化性都不是很好。Bert和GPT提出后,主流是在大的数据集上进行预训练,然后对子任务再 fine-tune。这仍然有两个问题

  • 在子任务上还是需要重新训练模型
  • 需要针对子任务收集数据集

这导致,模型在扩展到新任务时开销是比较大的。

GPT-2 还是做语言模型,但是在扩展到下游任务时,会有 zero-shot 的设定,不需要再重新训练模型

Approach

GPT中,在微调的时候引入了开始符,间隔符等特殊符号,这些是模型在预训练时候没有见到过的(微调的时候会进行学习)。现在 GPT-2 要做的是 zero-shot,模型在做下游任务时不能进行微调,因此不能引入这些特殊符号,否则模型就会很困惑,输入的形式应该更像自然语言,和之前相似

这就引入了 prompt(McCann et al 2018年提出),让一些自然语言,来充当一些符号的作用。

  • 比如翻译任务,可以写成一个序列:translate to french, english text, french text。这里又有明显的起始,分隔,又是正常的自然语言
  • 阅读理解任务,可以写成:answer the question, document, question, answer 是同样的道理

为什么可以工作(可能):

  • 模型足够强大,能够理解提示符
  • 在文本里面,这样的话可能也很常见

Dataset & Model

数据:Common Crawl是一个网页抓取项目,抓取网页供大家下载。但是信噪比低,有些网页可能就是垃圾网页。使用了 Reddit(算是一些已经过滤好的网页),最后得到4500万个链接,最终的数据集有800w文本,40GB。

因为数据量很大了,因此可以设计更大的模型。一共设计了 4 个。

Results

和别的做 zero-shot 的方法比

在一些任务上还不错,一些任务上差一些。但是随着模型大小的增加,效果还在变好。

Language Models are Few-shot Leaners(GPT-3)

Abstract

  • GPT-3的参数量有 175 billion(1750亿),比以往的非稀疏语言模型(权重可以有很多 0,这样是稀疏模型)大十几倍。

  • GPT-3在做子任务时不需要进行任何梯度更新或微调

  • 在所有的 NLP 任务上都取得了很好的成绩,而且能生成一些新闻的文章(人类很难区分是不是机器写的)

有关【论文阅读】GPT系列论文详解的更多相关文章

  1. python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声? - 2

    关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。

  2. ruby-on-rails - 使用一系列等级计算字母等级 - 2

    这里是Ruby新手。完成一些练习后碰壁了。练习:计算一系列成绩的字母等级创建一个方法get_grade来接受测试分数数组。数组中的每个分数应介于0和100之间,其中100是最大分数。计算平均分并将字母等级作为字符串返回,即“A”、“B”、“C”、“D”、“E”或“F”。我一直返回错误:avg.rb:1:syntaxerror,unexpectedtLBRACK,expecting')'defget_grade([100,90,80])^avg.rb:1:syntaxerror,unexpected')',expecting$end这是我目前所拥有的。我想坚持使用下面的方法或.join,

  3. ruby - 寻找通过阅读代码确定编程语言的ruby gem? - 2

    几个月前,我读了一篇关于ruby​​gem的博客文章,它可以通过阅读代码本身来确定编程语言。对于我的生活,我不记得博客或gem的名称。谷歌搜索“ruby编程语言猜测”及其变体也无济于事。有人碰巧知道相关gem的名称吗? 最佳答案 是这个吗:http://github.com/chrislo/sourceclassifier/tree/master 关于ruby-寻找通过阅读代码确定编程语言的rubygem?,我们在StackOverflow上找到一个类似的问题:

  4. 【鸿蒙应用开发系列】- 获取系统设备信息以及版本API兼容调用方式 - 2

    在应用开发中,有时候我们需要获取系统的设备信息,用于数据上报和行为分析。那在鸿蒙系统中,我们应该怎么去获取设备的系统信息呢,比如说获取手机的系统版本号、手机的制造商、手机型号等数据。1、获取方式这里分为两种情况,一种是设备信息的获取,一种是系统信息的获取。1.1、获取设备信息获取设备信息,鸿蒙的SDK包为我们提供了DeviceInfo类,通过该类的一些静态方法,可以获取设备信息,DeviceInfo类的包路径为:ohos.system.DeviceInfo.具体的方法如下:ModifierandTypeMethodDescriptionstatic StringgetAbiList​()Obt

  5. UE4 源码阅读:从引擎启动到Receive Begin Play - 2

    一、引擎主循环UE版本:4.27一、引擎主循环的位置:Launch.cpp:GuardedMain函数二、、GuardedMain函数执行逻辑:1、EnginePreInit:加载大多数模块int32ErrorLevel=EnginePreInit(CmdLine);PreInit模块加载顺序:模块加载过程:(1)注册模块中定义的UObject,同时为每个类构造一个类默认对象(CDO,记录类的默认状态,作为模板用于子类实例创建)(2)调用模块的StartUpModule方法2、FEngineLoop::Init()1、检查Engine的配置文件找出使用了哪一个GameEngine类(UGame

  6. 阿里云RDS——产品系列概述 - 2

    基础版云数据库RDS的产品系列包括基础版、高可用版、集群版、三节点企业版,本文介绍基础版实例的相关信息。RDS基础版实例也称为单机版实例,只有单个数据库节点,计算与存储分离,性价比超高。说明RDS基础版实例只有一个数据库节点,没有备节点作为热备份,因此当该节点意外宕机或者执行重启实例、变更配置、版本升级等任务时,会出现较长时间的不可用。如果业务对数据库的可用性要求较高,不建议使用基础版实例,可选择其他系列(如高可用版),部分基础版实例也支持升级为高可用版。基础版与高可用版的对比拓扑图如下所示。优势 性能由于不提供备节点,主节点不会因为实时的数据库复制而产生额外的性能开销,因此基础版的性能相对于

  7. ruby-on-rails - 在 irb 中阅读文档 - 2

    我怀念ipython的一件事是它有一个?为特定功能挖掘文档的运算符。我知道ruby​​有一个类似的命令行工具,但是我在irb中调用它非常不方便。ruby/irb有类似的东西吗? 最佳答案 Pry是IPython的Ruby版本,它支持?命令来查找有关方法的文档,但语法略有不同:pry(main)>?File.dirnameFrom:file.cinRubyCore(CMethod):Numberoflines:6visibility:publicsignature:dirname()Returnsallcomponentsofthef

  8. ruby - 从结束值创建一系列字符串 - 2

    我使用irb。下面是我写的代码。“斧头”..“bc”我期待"ax""ay""az""ba"bb""bc"但结果只是“斧头”..“bc”我该如何纠正?谢谢。 最佳答案 >puts("ax".."bc").to_aaxayazbabbbc 关于ruby-从结束值创建一系列字符串,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/7617092/

  9. 物联网MQTT协议详解 - 2

    一、什么是MQTT协议MessageQueuingTelemetryTransport:消息队列遥测传输协议。是一种基于客户端-服务端的发布/订阅模式。与HTTP一样,基于TCP/IP协议之上的通讯协议,提供有序、无损、双向连接,由IBM(蓝色巨人)发布。原理:(1)MQTT协议身份和消息格式有三种身份:发布者(Publish)、代理(Broker)(服务器)、订阅者(Subscribe)。其中,消息的发布者和订阅者都是客户端,消息代理是服务器,消息发布者可以同时是订阅者。MQTT传输的消息分为:主题(Topic)和负载(payload)两部分Topic,可以理解为消息的类型,订阅者订阅(Su

  10. Tcl脚本入门笔记详解(一) - 2

    TCL脚本语言简介•TCL(ToolCommandLanguage)是一种解释执行的脚本语言(ScriptingLanguage),它提供了通用的编程能力:支持变量、过程和控制结构;同时TCL还拥有一个功能强大的固有的核心命令集。TCL经常被用于快速原型开发,脚本编程,GUI和测试等方面。•实际上包含了两个部分:一个语言和一个库。首先,Tcl是一种简单的脚本语言,主要使用于发布命令给一些互交程序如文本编辑器、调试器和shell。由于TCL的解释器是用C\C++语言的过程库实现的,因此在某种意义上我们又可以把TCL看作C库,这个库中有丰富的用于扩展TCL命令的C\C++过程和函数,所以,Tcl是

随机推荐