火遍全球的ChatGPT技术简介与主干网络代码

程序猿老甘 2023-08-09 原文

如果说当下最火的AI技术和话题是什么，恐怕很难绕开ChatGPT。各大厂商都在表示未来要跟进ChatGPT技术，开发在自然语言处理智能系统，可见其影响力。本篇博客追个热度，来简单的介绍下ChatGPT到底是一项什么技术，究竟如何完成复杂的语言处理任务的。

ChatGPT到底是一项什么技术

如果想要了解ChatGPT是一项什么技术，不如直接问问他：

可以看到ChatGPT是一项基于Transformer模型实现的NLP软件。关于Transformer模型，我们已经在之前文章《注意力机制原理概述》介绍过。这里提到的LM技术，其实就是Transformer。

ChatGPT背后的Transformer架构

那么，ChatGPT的Transformer架构是什么样？我让chatgpt打印了他自己的主干网络代码，如下：

完整的代码分为四个模块：GPT框架，GPT层，多头注意力模块代码和位置编码。

GPT框架：

import torch
import torch.nn as nn
import torch.nn.functional as F

class GPT(nn.Module):

def init(self, vocab_size, embed_dim, n_layers, n_heads, dropout):
    super(GPT, self).init()
    self.vocab_size = vocab_size
    self.embed_dim = embed_dim
    self.n_layers = n_layers
    self.n_heads = n_heads
    self.dropout = dropout    
    self.embedding = nn.Embedding(vocab_size, embed_dim)
    self.pos_encoding = nn.Embedding(vocab_size, embed_dim)
    self.layers = nn.ModuleList([GPTLayer(embed_dim, n_heads, dropout) for _ in range(n_layers)])
    self.fc = nn.Linear(embed_dim, vocab_size)
    
def forward(self, x):
    # Embedding
    x = self.embedding(x)
    # Position Encoding
    x = self.pos_encoding(x)
    # GPT Layers
    for layer in self.layers:
        x = layer(x)
    # Output
    x = self.fc(x)
    return x

GPT层代码：

class GPTLayer(nn.Module):
def init(self, embed_dim, n_heads, dropout):
    super(GPTLayer, self).init()
    self.embed_dim = embed_dim
    self.n_heads = n_heads
    self.dropout = dropout
    self.attention = MultiHeadAttention(embed_dim, n_heads, dropout)
    self.feed_forward = PositionwiseFeedForward(embed_dim, dropout)
    
def forward(self, x):
    # Attention
    x = self.attention(x)
    # Feed Forward
    x = self.feed_forward(x)
    return x

多头注意力模块代码：

class MultiHeadAttention(nn.Module):
def init(self, embed_dim, n_heads, dropout):
    super(MultiHeadAttention, self).init()
    self.embed_dim = embed_dim
    self.n_heads = n_heads
    self.dropout = dropout

    self.query_linear = nn.Linear(embed_dim, embed_dim)
    self.key_linear = nn.Linear(embed_dim, embed_dim)
    self.value_linear = nn.Linear(embed_dim, embed_dim)
    self.output_linear = nn.Linear(embed_dim, embed_dim)
    
def forward(self, x):
    # Query, Key, Value
    query = self.query_linear(x)
    key = self.key_linear(x)
    value = self.value_linear(x)
    # Attention
    scores = torch.matmul(query, key.transpose(-2, -1)) / math.sqrt(query.size(-1))
    scores = F.softmax(scores, dim=-1)
    scores = self.dropout(scores)
    # Output
    output = torch.matmul(scores, value)
    output = self.output_linear(output)
    return output

位置编码：

class PositionwiseFeedForward(nn.Module):
def init(self, embed_dim, dropout):
    super(PositionwiseFeedForward, self).init()
    self.embed_dim = embed_dim
    self.dropout = dropout
    self.fc1 = nn.Linear(embed_dim, embed_dim)
    self.fc2 = nn.Linear(embed_dim, embed_dim)
    
def forward(self, x):
    # Feed Forward
    x = self.fc1(x)
    x = F.relu(x)
    x = self.dropout(x)
    x = self.fc2(x)
    x = self.dropout(x)
    return x

GPT主体框架主要由GPT层叠加构成。GPT层也比较容易理解，基本就是由多头注意力处理模块构建的。按照注意力机制原理，多头注意力处理首先将输入按照查询、键、值做对应的线性变换，之后输入一个多分枝的注意力结构，建立一个具有关联关系的评分结果。按照评分结果，实现对查询的值预测，实现NLP任务。这个模型基本就是2017年Vaswani工作 [1] 的复现。这让我们真正理解了多头注意力的强大之处。

总结

chatgpt是一个有趣且有用的AI工具，对于泛NLP任务，具有目前最优秀的处理分析能力。我认为其在客户问答，信息查询，文字编辑等任务中，将产生深远的影响。其背后基于多头注意力机制的Transformer模型，已被验证在逻辑关系学习领域，具有惊人的技术优势。相信在该技术路线上，未来还会有更加优秀的工作被不断提出。

Reference

[1] A. Vaswani, N. Shazeer, N. Parmar, et al. Attention is all you need. Advances in neural information processing systems, 2017,5998‒6008.

有关火遍全球的ChatGPT技术简介与主干网络代码的更多相关文章

ruby - 如何在 buildr 项目中使用 Ruby 代码？ - 2
如何在buildr项目中使用Ruby？我在很多不同的项目中使用过Ruby、JRuby、Java和Clojure。我目前正在使用我的标准Ruby开发一个模拟应用程序，我想尝试使用Clojure后端(我确实喜欢功能代码)以及JRubygui和测试套件。我还可以看到在未来的不同项目中使用Scala作为后端。我想我要为我的项目尝试一下buildr(http://buildr.apache.org/)，但我注意到buildr似乎没有设置为在项目中使用JRuby代码本身!这看起来有点傻，因为该工具旨在统一通用的JVM语言并且是在ruby中构建的。除了将输出的jar包含在一个独特的、仅限ruby
ruby-on-rails - Rails 源代码 : initialize hash in a weird way? - 2
在rails源中:https://github.com/rails/rails/blob/master/activesupport/lib/active_support/lazy_load_hooks.rb可以看到以下内容@load_hooks=Hash.new{|h,k|h[k]=[]}在IRB中，它只是初始化一个空哈希。和做有什么区别@load_hooks=Hash.new 最佳答案查看rubydocumentationforHashnew→new_hashclicktotogglesourcenew(obj)→new_has
ruby-on-rails - 浏览 Ruby 源代码 - 2
我的主要目标是能够完全理解我正在使用的库/gem。我尝试在Github上从头到尾阅读源代码，但这真的很难。我认为更有趣、更温和的踏脚石就是在使用时阅读每个库/gem方法的源代码。例如，我想知道RubyonRails中的redirect_to方法是如何工作的:如何查找redirect_to方法的源代码？我知道在pry中我可以执行类似show-methodmethod的操作，但我如何才能对Rails框架中的方法执行此操作？您对我如何更好地理解Gem及其API有什么建议吗？仅仅阅读源代码似乎真的很难，尤其是对于框架。谢谢! 最佳答案 Ru
ruby - 模块嵌套代码风格偏好 - 2
我的假设是moduleAmoduleBendend和moduleA::Bend是一样的。我能够从thisblog找到解决方案,thisSOthread和andthisSOthread.为什么以及什么时候应该更喜欢紧凑语法A::B而不是另一个，因为它显然有一个缺点？我有一种直觉，它可能与性能有关，因为在更多命名空间中查找常量需要更多计算。但是我无法通过对普通类进行基准测试来验证这一点。最佳答案这两种写作方法经常被混淆。首先要说的是，据我所知，没有可衡量的性能差异。(在下面的书面示例中不断查找)最明显的区别，可能也是最著名的，是你的
ruby - 寻找通过阅读代码确定编程语言的ruby gem？ - 2
几个月前，我读了一篇关于rubygem的博客文章，它可以通过阅读代码本身来确定编程语言。对于我的生活，我不记得博客或gem的名称。谷歌搜索“ruby编程语言猜测”及其变体也无济于事。有人碰巧知道相关gem的名称吗？最佳答案是这个吗:http://github.com/chrislo/sourceclassifier/tree/master 关于ruby-寻找通过阅读代码确定编程语言的rubygem？，我们在StackOverflow上找到一个类似的问题：
ruby - 用 Ruby 编写一个简单的网络服务器 - 2
我想在Ruby中创建一个用于开发目的的极其简单的Web服务器(不，不想使用现成的解决方案)。代码如下:#!/usr/bin/rubyrequire'socket'server=TCPServer.new('127.0.0.1',8080)whileconnection=server.acceptheaders=[]length=0whileline=connection.getsheaders想法是从命令行运行这个脚本，提供另一个脚本，它将在其标准输入上获取请求，并在其标准输出上返回完整的响应。到目前为止一切顺利，但事实证明这真的很脆弱，因为它在第二个请求上中断并出现错误:/usr/b
ruby - Net::HTTP 获取源代码和状态 - 2
我目前正在使用以下方法获取页面的源代码:Net::HTTP.get(URI.parse(page.url))我还想获取HTTP状态，而无需发出第二个请求。有没有办法用另一种方法做到这一点？我一直在查看文档，但似乎找不到我要找的东西。最佳答案在我看来，除非您需要一些真正的低级访问或控制，否则最好使用Ruby的内置Open::URI模块:require'open-uri'io=open('http://www.example.org/')#=>#body=io.read[0,50]#=>"["200","OK"]io.base_ur
程序员如何提高代码能力？ - 2
前言作为一名程序员，自己的本质工作就是做程序开发，那么程序开发的时候最直接的体现就是代码，检验一个程序员技术水平的一个核心环节就是开发时候的代码能力。众所周知，程序开发的水平提升是一个循序渐进的过程，每一位程序员都是从“菜鸟”变成“大神”的，所以程序员在程序开发过程中的代码能力也是根据平时开发中的业务实践来积累和提升的。提高代码能力核心要素程序员要想提高自身代码能力，尤其是新晋程序员的代码能力有很大的提升空间的时候，需要针对性的去提高自己的代码能力。提高代码能力其实有几个比较关键的点，只要把握住这些方面，就能很好的、快速的提高自己的一部分代码能力。1、多去阅读开源项目，如有机会可以亲自参与开源
亚特兰蒂斯的回声（中文版): chatGPT 的杰作 - 2
英文版英文链接关注公众号在“亚特兰蒂斯的回声”中踏上一段难忘的冒险之旅，深入未知的海洋深处。足智多谋的考古学家AriaSeaborne偶然发现了一件古代神器，揭示了一张通往失落之城亚特兰蒂斯的隐藏地图。在她神秘的导师内森·兰登教授的指导和勇敢的冒险家亚历克斯·默瑟的帮助下，阿丽亚开始了一段危险的旅程，以揭开这座传说中城市的真相。他们的冒险之旅带领他们穿越险恶的大海、神秘的岛屿和充满陷阱和谜语的致命迷宫。随着Aria潜在的魔法能力的觉醒，她被睿智勇敢的QueenNeria的幻象所指引，她让她为即将到来的挑战做好准备。三人组揭开亚特兰蒂斯令人惊叹的隐藏文明，并了解到邪恶的巫师马拉卡勋爵试图利用其古
Unity 热更新技术 | （三） Lua语言基本介绍及下载安装 - 2
?博客主页：https://xiaoy.blog.csdn.net?本文由呆呆敲代码的小Y原创，首发于CSDN??学习专栏推荐：Unity系统学习专栏?游戏制作专栏推荐：游戏制作?Unity实战100例专栏推荐：Unity实战100例教程?欢迎点赞?收藏⭐留言?如有错误敬请指正！?未来很长，值得我们全力奔赴更美好的生活✨------------------❤️分割线❤️-------------------------

火遍全球的ChatGPT技术简介与主干网络代码

ChatGPT到底是一项什么技术

ChatGPT背后的Transformer架构

总结

Reference

有关火遍全球的ChatGPT技术简介与主干网络代码的更多相关文章

随机推荐