从chatgpt来说说AI大模型

大胡子大叔 2023-04-18 原文

最近几乎所有的热点都被chatgpt占据，相信大家都对chatgpt已经不陌生了，最近我也看了一些，总结了一些关于大模型的资料，有些不足或者建议，欢迎大家指正。

什么是AI大模型？

AI大模型就是Foundation Model（基础模型），指通过在大规模宽泛的数据上进行训练后能适应一系列下游任务的模型。（Foundation Model名词来源李飞飞等众学者的这篇论文On the Opportunities and Risks of Foundation Models）。

AI大模型是人工智能迈向通用智能的里程碑技术。深度学习作为新一代人工智能的标志性技术，完全依赖模型自动从数据中学习知识，在显著提升性能的同时，也面临着通用数据激增与专用数据匮乏的矛盾。AI大模型兼具“大规模”和“预训练”两种属性，面向实际任务建模前需在海量通用数据上进行预先训练，能大幅提升AI的泛化性、通用性、实用性。

大模型发展

AI大模型发展起源于自然语言处理领域。在2017年Transformer网络提出后，伴随着参数量的不断提升，它在自然语言处理领域慢慢成为基础性架构，并在2018年其参数量达到3亿规模，也就是我们所熟知的BERT。基于如此之大的参数量，研究者发现它能够同时出色地完成多种自然语言处理任务，这也就吸引了越来越多的人加入其中。

在大模型研究的早期阶段，仍然主要集中在自然语言处理领域，诞生了诸如上述BERT、GPT-3等一系列代表性模型，它们的参数量从起初的几亿，快速增长为数十亿乃至千亿规模。而随之带来的就是相应能力的提升，具备了从简单的文本问答、文本创作到符号式语言的推理能力；近两年，部分研究者提出了以其他模态（如视觉等）为基础的大模型研究，希望模型也可以看懂世间万物。在这个阶段，诞生了如ViT等包含数亿参数规模的视觉模型。上述模型分别具备了读的能力和看的能力，研究者期望将这两类能力统一起来，具备如大脑体现的多模态感知能力，这一部分的代表性模型就是CLIP、DALL·E等模型。

更多的多模态模型介绍详见 https://zhuanlan.zhihu.com/p/460512128

主流大模型

（1）BERT：谷歌于2018年10月发布的BERT模型是最为典型的基础模型，它利用BooksCorpus和英文维基百科里纯文字的部分，无须标注数据，用设计的两个自监督任务来做训练，训练好的模型通过微调在11个下游任务上实现最佳性能。

（2）谷歌2021年发布的视觉迁移模型Big Transfer，BiT

（3）OpenAI在2020年5月发布的GPT-3则是一个自回归语言模型，具有1750亿参数，在互联网文本数据上训练得到的这一基础模型，可以使用提示的例子完成各式各样的任务，使用描述任务（如“把英文翻译成法语：”）加一个示例（如“sea otter => loutre de mer”），再给一个prompt提示（如“cheese =>”），GPT-3模型即可生成cheese对应的法文。这类模型正在成为主流的AI范式。

以GPT系列为例：

1）GPT-1是上亿规模的参数量，数据集使用了1万本书的BookCorpus，25亿单词量；

2）GPT-2参数量达到了15亿规模，其中数据来自于互联网，使用了800万在Reddit被链接过的网页数据，清洗后越40GB（WebText)；

3）GPT-3参数规模首次突破百亿，数据集上将语料规模扩大到570GB的CC数据集(4千亿词)+WebText2(190亿词)+BookCorpus(670亿词)+维基百科(30亿词)。

（4）Google 去年提出了 FLAN，一个基于 finetune 的 GPT 模型。它的模型结构和 GPT 相似。但是不同于 GPT-3 的是，它基于 62 个数据集，每个数据集构造了 10 个 Prompt 模板，也就是总共拿到 620 个模板的数据之后再进行 finetune。

更多介绍在此链接 https://zhuanlan.zhihu.com/p/545709881

国外大模型一览表

上图来自链接：总结当下可用的大模型LLMs - 知乎

国内大模型发展情况

2021年4月，华为云联合循环智能发布盘古NLP超大规模预训练语言模型，参数规模达1000亿；联合北京大学发布盘古α超大规模预训练模型，参数规模达2000亿。阿里达摩院发布270亿参数的中文预训练语言模型PLUG，联合清华大学发布参数规模达到1000亿的中文多模态预训练模型M6。

2021年6 月，北京智源人工智能研究院发布了超大规模智能模型“悟道 2.0”，参数达到 1.75 万亿，成为当时全球最大的预训练模型。

2021年7月，百度推出ERNIE 3.0 知识增强大模型，参数规模达到百亿。

2021年10月，浪潮发布约2500亿的超大规模预训练模型“源1.0”。 2021年12月，百度推出ERNIE 3.0 Titan模型，参数规模达2600亿。而达摩院的M6模型参数达到10万亿，将大模型参数直接提升了一个量级。

到2022年，大模型继续火热。最开始，大模型是集中在计算语言领域，但如今也已逐渐拓展到视觉、决策，应用甚至覆盖蛋白质预测、航天等等重大科学问题，谷歌、Meta、百度等等大厂都有相应的成果。

国内大模型一览表

大模型与传统模型比对

	AI大模型	传统的AI模型
1	AI大模型得益于其“大规模预训练﹢微调”的范式，可以很好地适应不同下游任务，展现出它强大的通用性	由于数据规模或是模型表达能力的约束，这些模型往往只能有针对性地支持一个或者一类任务，而无法支持其他任务
2	AI大模型预先在海量通用数据上训练并具备多种基础能力，可结合多种垂直行业和业务场景需求进行模型微调和应用适配	传统AI能力碎片化、作坊式开发
3	AI大模型已成为上层应用的技术底座，能够有效支撑智能终端、系统、平台等产品应用落地	传统AI应用过程中存在的壁垒多、部署难
4	在共享参数的情况下，只需在不同下游实验中做出相应微调就能得到优越的表现	传统AI模型存在难以泛化到其他任务上的局限性
5	自监督学习方法，可以减少数据标注，并且模型参数规模越大，优势越明显，避免开发人员再进行大规模的训练，使用小样本就可以训练自己所需模型，极大降低开发使用成本。	人工标注成本高、周期长、准确度不高
6	有望进一步突破现有模型结构的精度局限

模型精度--传统模型

从深度学习发展前10年的历程来看，模型精度提升，主要依赖网络在结构上的变革。例如，从AlexNet到ResNet50，再到NAS搜索出来的EfficientNet，ImageNet Top-1 精度从58提升到了84。但是，随着神经网络结构设计技术，逐渐成熟并趋于收敛，想要通过优化神经网络结构从而打破精度局限非常困难。

模型精度--Bit模型精度

以谷歌2021年发布的视觉迁移模型Big Transfer，BiT为例。扩大数据规模也能带来精度提升，例如使用ILSVRC-2012(128 万张图片，1000 个类别)和JFT-300M(3亿张图片，18291个类别)两个数据集来训练ResNet50，精度分别是77%和79%。另外使用 JFT-300M训练ResNet152x4，精度可以上升到87.5%，相比ILSVRC-2012+ResNet50结构提升了10.5%。

（下图）通过模型参数来看大模型在参数规模变大时对精度的影响，彩色文字是对数据集的注释。

算力需求

使用单块英伟达V100GPU训练的理论时间来感受大模型对算力的需求，典型的大模型例如GPT BERT GPT-2等的训练时间如下。

例如，GPT-3的训练使用了上万块英伟达v100 GPU，总成本高达2760万美元，个人如果要训练出一个PaLM也要花费900至1700万美元。虽然训练会使用更大规模的算力消耗，推理会少非常多，比如清华大学与智谱AI联合开源的双语大模型GLM-130B，通过快速推理方法，已经将模型压缩到可以在一台A100（40G*8）或V100（32G*8）服务器上进行单机推理。但是一台A100的8卡机也是要大几十万（A100 40G单卡7w左右，8张卡则56w，那么整机也需要60w左右了），这个成本，对很多AI应用来说，还是很高。

好消息则是算力在迭代，算力成本也在下降，NVIDIA的H系列显卡，比如H100，单从算力（fp32）相比以往T4（深度学习1.0时代主流显卡），达到7倍++，坏消息则是H100这样的强大算力显卡被限制出口国内。

在大模型时代，针对Transformer结构优化的加速卡、工具链也在被不断推出，算力厂商在抢占大模型计算高地的同时，提高算力和降低成本，让大模型落地通路可行。

国内应用场景

智源研究院针对2021年北京冬奥会，提出了“悟道”大模型用于冬奥手语播报数字人，提供智能化的数字人手语生成服务，方便听障人士也能收看赛事专题报道，提升他们的社会参与度和幸福感。这个项目还得到了北京市残疾人联合会和市残联聋人协会的大力支持。

华为盘古CV大模型。主要是针对无人机电力智能巡检这个场景，以国网重庆永川供电公司为例，无人机智能巡检开发主要面临两个挑战：一是如何对海量数据进行高效标注；二是缺陷种类多达上百种，需要数十个AI识别模型。

盘古CV大模型在数据标注方面，利用海量无标注电力数据进行预训练，结合少量标注样本进行微调，使得样本筛选效率提升约30倍，以永川供电每天采集5万张高清图片为例，可节省人工标注时间170人天。在模型通用性方面，可以做到一个模型适配上百种缺陷，替代原有20多个小模型，减少了模型维护成本，平均精度提升18.4%，开发成本降低90%。

当然也缺少不了最近双十一，双十一是淘宝系统服务最繁忙的一天，如何有效地应对成千上亿的用户咨询。

基于达摩院开发的M6大模型智能生成内容文案，方便智能客服进行上下文理解和问题回答生成。

另外大模型的多模态特征提取能力，也能进行商品属性标签补充、认知召回等下游任务。

大模型训练框架

目前部分深度学习框架，例如Pytorch和Tensorflow，没有办法满足超大规模模型训练的需求，于是微软基于Pytroch开发了DeepSpeed，腾讯基于Pytroch开发了派大星PatricStar，达摩院同基于Tensoflow开发的分布式框架Whale。像是华为昇腾的MindSpore、百度的PaddlePaddle，还有国内的追一科技OneFlow等厂商，对超大模型训练进行了深度的跟进与探索，基于原生的AI框架支持超大模型训练。

大模型主要头部厂商

最主要的竞争对手有基于英伟达的GPU+微软的DeepSpeed，Google的TPU+Tensorflow，当然还有华为昇腾Atlas800+MindSpore三大厂商能够实现全面的优化。至于其他厂商，大部分都是基于英伟达的GPU基础上进行一些创新和优化。

斯坦福大学大模型中心对全球 30 个主流大模型进行了全方位的评测

GLM-130B 是亚洲唯一入选的大模型。在与 OpenAI、Google Brain、微软、英伟达、Meta AI 的各大模型对比中，评测报告显示 GLM-130B 在准确性和公平性指标上与 GPT-3 175B (davinci) 接近或持平，鲁棒性、校准误差和无偏性优于 GPT-3 175B。

由清华技术成果转化的公司智谱 AI 开源了 GLM 系列模型的新成员——中英双语对话模型 ChatGLM-6B，支持在单张消费级显卡上进行推理使用。这是继此前开源 GLM-130B 千亿基座模型之后，智谱 AI 再次推出大模型方向的研究成果。

开源的地址：https://github.com/THUDM/ChatGLM-6B

期望

对于AI大模型而言，我们不仅期望它的参数量巨大，大模型也应同时具备多种模态信息的高效理解能力、跨模态的感知能力以及跨差异化任务的迁移与执行能力等。

关于文章的内容放到了ppt里面，想要下载的朋友可以到我的资源里面下载，ppt做的比较粗糙，还请见谅。

https://download.csdn.net/download/sunnyrainflower/87642873

chatgpt 从 xff0c xff xff0 人工智能 AI大模型深度学习

有关从chatgpt来说说AI大模型的更多相关文章

ruby-on-rails - Rails - 子类化模型的设计模式是什么？ - 2
我有一个模型:classItem项目有一个属性“商店”基于存储的值，我希望Item对象对特定方法具有不同的行为。Rails中是否有针对此的通用设计模式？如果方法中没有大的if-else语句，这是如何干净利落地完成的？最佳答案通常通过Single-TableInheritance. 关于ruby-on-rails-Rails-子类化模型的设计模式是什么？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.co
ruby-on-rails - Rails - 一个 View 中的多个模型 - 2
我需要从一个View访问多个模型。以前，我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它，但这似乎不是“ruby方式”，我将需要在不久的将来访问更多模型。这可能会变得很脏，是否有针对这种情况的任何技术？注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展，本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向，这似乎很麻烦。最终从任何
ruby-on-rails - 在混合/模块中覆盖模型的属性访问器 - 2
我有一个包含模块的模型。我想在模块中覆盖模型的访问器方法。例如:classBlah这显然行不通。有什么想法可以实现吗？最佳答案您的代码看起来是正确的。我们正在毫无困难地使用这个确切的模式。如果我没记错的话，Rails使用#method_missing作为属性setter，因此您的模块将优先，阻止ActiveRecord的setter。如果您正在使用ActiveSupport::Concern(参见thisblogpost)，那么您的实例方法需要进入一个特殊的模块:classBlah
ruby-on-rails - 如何验证非模型(甚至非对象)字段 - 2
我有一个表单，其中有很多字段取自数组(而不是模型或对象)。我如何验证这些字段的存在？solve_problem_pathdo|f|%>... 最佳答案创建一个简单的类来包装请求参数并使用ActiveModel::Validations。#definedsomewhere,atthesimplest:require'ostruct'classSolvetrue#youcouldevencheckthesolutionwithavalidatorvalidatedoerrors.add(:base,"WRONG!!!")unlesss
ruby-on-rails - form_for 中不在模型中的自定义字段 - 2
我想向我的Controller传递一个参数，它是一个简单的复选框，但我不知道如何在模型的form_for中引入它，这是我的观点:{:id=>'go_finance'}do|f|%>Transferirde:para:Entrada:"input",:placeholder=>"Quantofoiganho?"%>Saída:"output",:placeholder=>"Quantofoigasto?"%>Nota:我想做一个额外的复选框，但我该怎么做，模型中没有一个对象，而是一个要检查的对象，以便在Controller中创建一个ifelse，如果没有检查，请帮助我，非常感谢,谢谢
ruby-on-rails - 如何将验证与模型分开 - 2
我有一些非常大的模型，我必须将它们迁移到最新版本的Rails。这些模型有相当多的验证(User有大约50个验证)。是否可以将所有这些验证移动到另一个文件中？说app/models/validations/user_validations.rb。如果可以，有人可以提供示例吗？最佳答案您可以为此使用关注点:#app/models/validations/user_validations.rbrequire'active_support/concern'moduleUserValidationsextendActiveSupport:
ruby-on-rails - Rails 模型——非持久类成员或属性？ - 2
对于Rails模型，是否可以/建议让一个类的成员不持久保存到数据库中？我想将用户最后选择的类型存储在session变量中。由于我无法从我的模型中设置session变量，我想将值存储在一个“虚拟”类成员中，该成员只是将值传递回Controller。你能有这样的类(class)成员吗？最佳答案将非持久属性添加到Rails模型就像任何其他Ruby类一样:classUser扩展解释:在Ruby中，所有实例变量都是私有(private)的，不需要在赋值前定义。attr_accessor创建一个setter和getter方法:classUs
ruby-on-rails - Rails - 从另一个模型中创建一个模型的实例 - 2
我有一个正在构建的应用程序，我需要一个模型来创建另一个模型的实例。我希望每辆车都有4个轮胎。汽车模型classCar轮胎模型classTire但是，在make_tires内部有一个错误，如果我为Tire尝试它，则没有用于创建或新建的activerecord方法。当我检查轮胎时，它没有这些方法。我该如何补救？错误是这样的:未定义的方法'create'forActiveRecord::AttributeMethods::Serialization::Tire::Module我测试了两个环境:测试和开发，它们都因相同的错误而失败。最佳答案
ruby-on-rails - Ruby 中的内存模型 - 2
ruby如何管理内存。例如:如果我们在执行过程中采用C程序，则以下是内存模型。类似于这个ruby如何处理内存。C:__________________|||stack|||------------------||||------------------|||||Heap|||||__________________|||data|__________________|text|__________________Ruby:? 最佳答案 Ruby中没有“内存”这样的东西。Class#allocate分配一个对象并返回该对象。这就是程序
ruby-on-rails - Rails 3.1 中具有相同形式的多个模型？ - 2
我正在使用Rails3.1并在一个论坛上工作。我有一个名为Topic的模型，每个模型都有许多Post。当用户创建新主题时，他们也应该创建第一个Post。但是，我不确定如何以相同的形式执行此操作。这是我的代码:classTopic:destroyaccepts_nested_attributes_for:postsvalidates_presence_of:titleendclassPost...但这似乎不起作用。有什么想法吗？谢谢! 最佳答案 @Pablo的回答似乎有你需要的一切。但更具体地说...首先改变你View中的这一行对此#