【GPT-4】GPT-4 相关内容总结

Taylor_29511 2023-04-11 原文

我们创建了 GPT-4，这是 OpenAI 努力扩展深度学习的最新里程碑。GPT-4 是一个大型多模态模型（接受图像和文本输入，发出文本输出），虽然在许多现实世界场景中的能力不如人类，但在各种专业和学术基准上表现出人类水平的表现。

GPT-4 可以更准确地解决难题，这要归功于其更广泛的常识和解决问题的能力。

创造力：GPT-4 比以往任何时候都更具创造性和协作性。它可以生成、编辑并与用户一起迭代创意和技术写作任务，例如创作歌曲、编写剧本或学习用户的写作风格。
视觉输入：GPT-4 可以接受图像作为输入并生成说明、分类和分析。
更长的上下文：GPT-4 能够处理超过 25,000 个单词的文本，允许使用长格式内容创建、扩展对话以及文档搜索和分析等用例。

GPT-4 的高级推理能力超越了 ChatGPT。
GPT-4 通过在测试者中获得更高的近似百分位数来优于 ChatGPT。
遵循 GPT、GPT-2 和 GPT-3 的研究路径，我们的深度学习方法利用更多数据和更多计算来创建越来越复杂和强大的语言模型
安全与对齐

通过人工反馈进行训练：我们纳入了更多的人工反馈，包括 ChatGPT 用户提交的反馈，以改进 GPT-4 的行为。我们还与 50 多位专家合作，在 AI 安全和保障等领域获得早期反馈。
从现实世界的使用中不断改进：我们已经将我们以前模型在现实世界中使用的经验教训应用到 GPT-4 的安全研究和监控系统中。与 ChatGPT 一样，随着越来越多的人使用它，我们将定期更新和改进 GPT-4。
GPT-4 辅助的安全研究：GPT-4 的高级推理和指令遵循能力加快了我们的安全工作。我们使用 GPT-4 帮助创建用于模型微调的训练数据，并在训练、评估和监控过程中迭代分类器。

与使用 GPT-4 构建的新产品的组织合作

GPT-4 内容提升总结

重点强化了创作能力，作曲，写小说，能够生成歌词、创意文本、实现风格变化等
强大的识图能力，除本身带了对于图片 OCR 外，还有对位置和细节的理解能力
增加了对于长文本的处理能力：文字输入限制提升至 2.5 万字
回答准确性显著提高
多了一种新的交互方式，就是对于图片的理解

GPT-4 简短版总结

GPT-4是一个大型多模态模型（Large Multimodal Model），能够接受图像和文本输入，并输出文本。
实验表明，GPT-4 在各种专业和学术考试中表现出了与人类水平相当的性能（human-level performance）。例如，它通过了模拟律师考试，且分数在应试者的前 10% 左右；相比之下，GPT-3.5 的得分在倒数 10% 左右。
GPT-4的训练稳定性是史无前例的，这得益于对抗性测试计划和来自于ChatGPT的经验教训，对 GPT-4 进行迭代调整，从而在真实性、可控性等方面取得了有史以来最好的结果。
在过去的两年里，OpenAI重建了整个深度学习堆栈，并与Azure共同设计了一台超级计算机以便于应付他们的工作负载。将继续专注于可靠的扩展，进一步完善方法，以帮助其实现更强大的提前预测性能和规划未来的能力，这对安全至关重要。
OpenAI首先发布了GPT-4的文本输入功能，图像输入功能敬请期待。
OpenAI还开源了OpenAI Evals，这是他们的自动化评估AI模型性能的框架，任何人都可以提交他们模型的缺陷以帮助改进。
OpenAI 正在通过 ChatGPT 和 API（有候补名单）发布 GPT-4 的文本输入功能。图像输入功能方面，为了获得更广泛的可用性，OpenAI 正在与其他公司展开合作。
OpenAI 还在为机器学习模型设计的传统基准上评估了 GPT-4。GPT-4 大大优于现有的大型语言模型，以及大多数 SOTA 模型

GPT-4 基础能力

GPT-4 是一个多模态大模型，支持接受图像和文本输入，输出文本。
虽然没一步到位，把音视频也覆盖上，但如果能把图像与文本这两块做好，相信其应用潜力无限。
即便 GPT-4 在许多现实世界场景中能力不如人类，但在各种专业和学术基准上的表现，还是超过了人类的平均水平。这里有一个数据是，在律师模拟考中，GPT-4 的成绩排在应试生的前 10% 中，而此前发布的 GPT-3.5，则在倒数 10% 的行列。参加的多种不同领域的专业应试，能够排到多靠前的位置。
在团队进行的多个 GPT-4 与 GPT-3.5 的考试测试中，发现这两个模型间存在很微妙的差异。当任务的复杂性足够高时，GPT-4 比 GPT-3.5 更可靠、更有创意，并且能够处理更细微的指令。

在 GPT-4 发布之前，Open AI 团队花了 6 个月的时间，使用对抗性测试程序，以及从 ChatGPT 得到的经验教训，对 GPT-4 进行了迭代调整，进而在其真实性、可操控性等方面取得了有史以来最好的结果。

在与当前机器学习模型进行基准评估对比后，GPT-4 大大优于现有的大型语言模型，以及大多数最先进的 (SOTA) 模型。

GPT-4 图像处理

GPT-4 本次最为令人看重的，还是它接受与处理图像的具体能力。

在官方报告中，团队提供了多个实际交互示例。

还在研究阶段，不公开。

详细版：GPT-4可以接受文本和图像输入，并且这两个是可以掺杂着用，它允许你用跟之前文本一样的使用方式。

一共有7个例子，总结起来，它可以识别搞笑图片，可以做复杂的物理化学之类的题目，可以做看图题，可以读论文，可以识别meme图片，总之，非常的强，可惜还不能开放使用。

理解图片

识别与解析图片内容

解析报表图片并进行汇总

直接回答图片中包含的提问内容

不过，GPT-4 跟 GPT-3.5 类似，对训练数据中断后（2021 年 9 月）所发生的事情不太了解，也会犯一些在我们看来很简单的推理性错误，给用户提供不合理的建议，以及在生成的代码中引入安全漏洞。

对于这些潜在性的危险因素，团队也聘请了来自多个不同行业的专家对模型进行了优化调整，但是其具体效果，还需要等后面场景应用较为广泛后，才能得出结论。

GPT-4 技术报告

OpenAI 公开的技术报告中，不包含任何关于模型架构、硬件、算力等方面的更多信息。

下面是稍微具体一点的技术报告 https://cdn.openai.com/papers/gpt-4.pdf：

与 GPT-3.5/ChatGPT 技术路线完全相同。GPT-4 is a Transformer-style model pre-trained to predict the next token in a document, using both publicly available data (such as internet data) and data licensed from third-party providers. The model was then fine-tuned using Reinforcement Learning from Human Feedback (RLHF). ；
用一系列 alignment 方案来确保 GPT-4 输出的安全性。The post-training alignment process results in improved performance on measures of factuality and adherence to desired behavior.
用千分之一的计算量去预测 GPT-4 在一定计算规模下的性能，不用花时间训练大模型去探索，即 Predictable Scaling。A core component of this project was developing infrastructure and optimization methods that behave predictably across a wide range of scales. This allowed us to accurately predict some aspects of GPT-4’s performance based on models trained with no more than 1/1,000th the compute of GPT-4.
很想看到 OpenAI 是如何做到 Multi-modal GPT 的，我大致是这么猜的：GPT-4 的训练方法应当与最近微软发布的 KOSMOS-1 相同（Language Is Not All You Need: Aligning Perception with Language Models）。预训练阶段，输入任意顺序的文本和图像，图像经过 vision encoder （如 ViT，CLIP ViT）成 embedding，文本经过 text tokenizer 也成 embedding，组成 multimodal sentence embedding，训练目标仍然是 next-token generation。KOSMOS-1 数据从哪来，直接爬网页训，网页里有图有文字。别看 KOSMOS-1 性能比较拉，那是因为它参数量少，就 1.3 B。同样的方式放到 GPT-4 的参数规模，能成大事。
GPT-4参数量，没有找到相关描述。

训练过程

与之前的 GPT 模型一样，GPT-4 基础模型经过训练可以预测文档中的下一个单词。OpenAI 使用公开可用的数据（例如互联网数据）以及已获得许可的数据进行训练。训练数据是一个网络规模的数据语料库，包括数学问题的正确和错误解决方案、弱推理和强推理、自相矛盾和一致的陈述，以及各种各样的意识形态和想法。

因此，当提出问题时，基础模型的回应可能与用户的意图相去甚远。为了使其与用户意图保持一致，OpenAI 依然使用强化学习人类反馈 (RLHF) 来微调模型的行为。请注意，该模型的能力似乎主要来自于预训练过程 ——RLHF 不会提高考试成绩（甚至可能会降低它）。但是模型的控制来自后训练过程 —— 基础模型甚至需要及时的工程设计来回答问题。

GPT-4 的一大重点是建立了一个可预测扩展的深度学习栈。主要原因是，对于像 GPT-4 这样的大型训练，进行广泛的特定模型调整是不可行的。团队开发了基础设施和优化，在多种规模下都有可预测的行为。为了验证这种可扩展性，他们提前准确地预测了 GPT-4 在内部代码库（不属于训练集）上的最终损失，方法是通过使用相同的方法训练的模型进行推断，但使用的计算量为 1/10000。

局限性

尽管功能已经非常强大，但 GPT-4 仍与早期的 GPT 模型具有相似的局限性，其中最重要的一点是它仍然不完全可靠。OpenAI 表示，GPT-4 仍然会产生幻觉、生成错误答案，并出现推理错误。

目前，使用语言模型应谨慎审查输出内容，必要时使用与特定用例的需求相匹配的确切协议（例如人工审查、附加上下文或完全避免使用）。

总的来说，GPT-4 相对于以前的模型（经过多次迭代和改进）已经显著减轻了幻觉问题。在 OpenAI 的内部对抗性真实性评估中，GPT-4 的得分比最新的 GPT-3.5 模型高 40%：

GPT-4 风险和应对措施

GPT-4 的训练在去年 8 月完成，剩下的时间都在进行微调提升，以及最重要的去除危险内容生成的工作。
OpenAI一直在对GPT-4进行迭代，以使其更加安全。
GPT-4与以前的模型一样具有风险，但由于其额外的能力，从而会导致新的风险。
邀请了50多名专家对模型进行对抗测试，以提高模型的安全性能。
GPT-4在RLHF训练过程中加入了额外的安全奖励信号，通过训练模型拒绝对此类内容的请求来减少有害的输出。
为了防止模型拒绝有效请求，收集了多样化的数据集，并在允许和不允许的类别上应用安全奖励信号。
缓解措施显著提高了GPT-4的安全性能，例如将模型对于不允许内容请求的响应率降低了82%。对敏感请求（如医疗建议和自我伤害）的响应符合政策的频率提高了 29%。

开源项目：OpenAI Evals

为了让开发者能更好的评测 GPT-4 的优缺点，OpenAI 的技术团队还开源了 OpenAI Evals 项目，可用于自动评估 AI 模型性能的框架，以便用户能更专业的指导团队，进一步优化与改进模型。

该项目具有以下功能特性：

使用数据集生成提示；
衡量 OpenAI 模型提供的补全质量；
比较不同数据集和模型的性能。

GitHub：https://github.com/openai/evals

申请 GPT-4 API

GPT-4 发布后，OpenAI 直接升级了 ChatGPT。ChatGPT Plus 订阅者可以在 chat.openai.com 上获得具有使用上限的 GPT-4 访问权限。
OpenAI 已面向开发者开放 GPT-4 API 的申请通道，大家想提前使用的话，可以先提交申请，进入 waitlist 中等待通过。（GPT-4 API 它使用与 gpt-3.5-turbo 相同的 ChatCompletions API）。
申请通道：https://openai.com/waitlist/gpt-4-api
ChatGPT Plus 订阅会员，则可以直接获得 GPT-4 的试用权限，无需等待。不过有一定限制，在 4 小时内，最多只能发布 100 条信息。获得访问权限后，用户当前还是只能向 GPT-4 模型发出纯文本请求，图像请求可能得等稍晚一些时间才对外开放。

API的介绍以及获取

通过注册waitlist，开发人员可以获得访问 GPT-4 API 的权限
AI研究员可以通过Researcher Access Program申请补贴访问
获得访问权限后，可以向 GPT-4 模型发出纯文本请求（图像输入仍处于有限的 alpha 阶段）
价格为每 1k 个 prompt tokens 0.03 美元和每 1k 个 completion tokens 0.06 美元
默认速率限制为每分钟 40k 个tokens和每分钟 200 个tokens 请求
GPT-4 的上下文长度为 8,192 个tokens
有限访问 GPT-4-32k（32,768-上下文版本）的价格为：每 1k prompt token 0.06 美元和每 1k completion token 0.12 美元
处理对 8K 和 32K 引擎的请求的速率可能会不同，因此可能会在不同时间获得对它们的访问权限

GPT 相关 lt gt quot

有关【GPT-4】GPT-4 相关内容总结的更多相关文章

ruby - 将数组的内容转换为 int - 2
我需要读入一个包含数字列表的文件。此代码读取文件并将其放入二维数组中。现在我需要获取数组中所有数字的平均值，但我需要将数组的内容更改为int。有什么想法可以将to_i方法放在哪里吗？ClassTerraindefinitializefile_name@input=IO.readlines(file_name)#readinfile@size=@input[0].to_i@land=[@size]x=1whilex 最佳答案只需将数组映射为整数:@land边注如果你想得到一条线的平均值，你可以这样做:values=@input[x]
ruby-on-rails - 如何在我的 Rails 应用程序 View 中打印 ruby 变量的内容？ - 2
我是一个Rails初学者，但我想从我的RailsView(html.haml文件)中查看Ruby变量的内容。我试图在ruby中打印出变量(认为它会在终端中出现)，但没有得到任何结果。有什么建议吗？我知道Rails调试器，但更喜欢使用inspect来打印我的变量。最佳答案您可以在View中使用puts方法将信息输出到服务器控制台。您应该能够在View中的任何位置使用Haml执行以下操作:-puts@my_variable.inspect 关于ruby-on-rails-如何在我的R
ruby-on-rails - 相关表上的范围为 "WHERE ... LIKE" - 2
我正在尝试从Postgresql表(table1)中获取数据，该表由另一个相关表(property)的字段(table2)过滤。在纯SQL中，我会这样编写查询:SELECT*FROMtable1JOINtable2USING(table2_id)WHEREtable2.propertyLIKE'query%'这工作正常:scope:my_scope,->(query){includes(:table2).where("table2.property":query)}但我真正需要的是使用LIKE运算符进行过滤，而不是严格相等。然而，这是行不通的:scope:my_scope,->(que
ruby - 查找字符串中的内容类型(数字、日期、时间、字符串等) - 2
我正在尝试解析一个CSV文件并使用SQL命令自动为其创建一个表。CSV中的第一行给出了列标题。但我需要推断每个列的类型。Ruby中是否有任何函数可以找到每个字段中内容的类型。例如，CSV行:"12012","Test","1233.22","12:21:22","10/10/2009"应该产生像这样的类型['integer','string','float','time','date']谢谢! 最佳答案 require'time'defto_something(str)if(num=Integer(str)rescueFloat(s
SPI接收数据异常问题总结 - 2
SPI接收数据左移一位问题目录SPI接收数据左移一位问题一、问题描述二、问题分析三、探究原理四、经验总结最近在工作在学习调试SPI的过程中遇到一个问题——接收数据整体向左移了一位（1bit）。SPI数据收发是数据交换，因此接收数据时从第二个字节开始才是有效数据，也就是数据整体向右移一个字节（1byte）。请教前辈之后也没有得到解决，通过在网上查阅前人经验终于解决问题，所以写一个避坑经验总结。实际背景：MCU与一款芯片使用spi通信，MCU作为主机，芯片作为从机。这款芯片采用的是它规定的六线SPI，多了两根线：RDY和INT，这样从机就可以主动请求主机给主机发送数据了。一、问题描述根据从机芯片手
ruby - 如何使用 Selenium Webdriver 根据 div 的内容执行操作？ - 2
我有一个使用SeleniumWebdriver和Nokogiri的Ruby应用程序。我想选择一个类，然后对于那个类对应的每个div，我想根据div的内容执行一个Action。例如，我正在解析以下页面:https://www.google.com/webhp?sourceid=chrome-instant&ion=1&espv=2&ie=UTF-8#q=puppies这是一个搜索结果页面，我正在寻找描述中包含“Adoption”一词的第一个结果。因此机器人应该寻找带有className:"result"的div，对于每个检查它的.descriptiondiv是否包含单词“adoption
ruby-on-rails - 在具有 ActiveRecord 条件的相关模型中按字段排序 - 2
我正在尝试按Rails相关模型中的字段进行排序。我研究的所有解决方案都没有解决如果相关模型被另一个参数过滤？元素模型classItem相关模型:classPriority我正在使用where子句检索项目:@items=Item.where('company_id=?andapproved=?',@company.id,true).all我需要按相关表格中的“位置”列进行排序。问题在于，在优先级模型中，一个项目可能会被多家公司列出。因此，这些职位取决于他们拥有的company_id。当我显示项目时，它是针对一个公司的，按公司内的职位排序。完成此任务的正确方法是什么？感谢您的帮助。PS-我
ruby - 如何在ruby中提取方括号内的内容 - 2
我正在尝试提取方括号内的内容。到目前为止，我一直在使用它，它有效，但我想知道我是否可以直接在正则表达式中使用某些东西，而不是使用这个删除功能。a="Thisissuchagreatday[coolawesome]"a[/\[.*?\]/].delete('[]')#=>"coolawesome" 最佳答案差不多。a="Thisissuchagreatday[coolawesome]"a[/\[(.*?)\]/,1]#=>"coolawesome"a[/(?"coolawesome"第一个依赖于提取组而不是完全匹配；第二个利用前瞻和
ruby-on-rails - 如何找出拦截 'method_missing' 的内容 - 2
使用Ruby1.8.6/Rails2.3.2我注意到在我的任何ActiveRecord模型类上调用的任何方法都返回nil而不是NoMethodError。除了烦人之外，这还破坏了动态查找器(find_by_name、find_by_id等)，因为即使存在记录，它们也总是返回nil。不从ActiveRecord::Base派生的标准类不受影响。有没有办法追踪在ActiveRecord::Base之前拦截method_missing的是什么？更新:切换到1.8.7后，我发现(感谢@MichaelKohl)will_paginate插件首先处理method_missing。但是will_pa
ruby - 使用指向 ruby 可执行文件的符号链接(symbolic link)时查找相关库 - 2
假设您有一个可执行文件foo.rb，其库bar.rb的布局如下:/bin/foo.rb/lib/bar.rb在foo.rb的header中放置以下要求以在bar.rb中引入功能:requireFile.dirname(__FILE__)+"../lib/bar.rb"只要对foo.rb的所有调用都是直接的，这就可以正常工作。如果你把$HOME/project和符号链接(symboliclink)foo.rb放入$HOME/usr/bin,然后__FILE__解析为$HOME/usr/bin/foo.rb,因此无法找到bar.rb关于foo.rb的目录名.我意识到像rubygems这