草庐IT

百度CTO王海峰:全栈AI技术加持,打造新一代大语言模型文心一言

飞桨PaddlePaddle 2023-05-27 原文

3月16日,百度在北京总部召开新闻发布会,百度创始人、董事长兼首席执行官李彦宏和百度首席技术官王海峰出席,李彦宏展示了新一代知识增强大语言模型文心一言在文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成五个使用场景中的综合能力,王海峰解读了文心一言的技术特性及其背后的技术积累。

01 厚积薄发,长期技术积累构建全栈 AI 技术

在人工智能时代,IT 技术栈可分为“芯片层、框架层、模型层、应用层”四层,百度自2010年起开始全面布局人工智能,是全球为数不多、进行全栈布局的人工智能公司。从昆仑芯片、飞桨深度学习平台、文心大模型到应用,百度在技术栈的各层都有领先业界的关键自研技术,实现了层与层反馈,端到端优化,大幅提升效率。

在框架层,飞桨是百度自主研发的中国首个开源开放的产业级深度学习平台,包括核心框架、产业级模型库、开发套件、工具组件,以及学习和实训社区,能够标准化、自动化地支撑模型生产和应用。在模型层,文心大模型包括 NLP、CV、跨模态等基础大模型,对话、跨语言、搜索、信息抽取等任务大模型,生物计算领域大模型,行业大模型,以及支撑大模型应用的工具平台,形成了基础-任务-行业三级大模型技术体系,具备知识增强和产业级两大特色。

王海峰认为,文心一言是百度多年技术积累和产业实践的水到渠成,尤其是飞桨深度学习平台和文心大模型的联合优化,为文心一言提供了坚实的技术支撑。飞桨有效支撑了大模型的灵活开发、高效训练和推理部署。文心大模型从2019年发布以来,已经从最初的自然语言理解大模型,发展成了跨语言、跨模态、跨任务、跨行业的能力完备的大模型平台。

02 核心技术加持,新一代知识增强大语言模型水到渠成

文心一言是新一代知识增强大语言模型,也是百度继文心一格之后的又一个生成式 AI 产品,具备对话交互、内容创作、知识推理、多模态生成等能力。王海峰表示,新一代知识增强大语言模型文心一言,是在 ERNIE 及 PLATO 系列模型的基础上研发的。它的关键技术包括有监督精调、人类反馈的强化学习、提示、知识增强、检索增强和对话增强。前三项是这类大语言模型都会采用的技术,ERNIE 和 PLATO 中已经有应用和积累,在文心一言中又有了进一步强化和打磨;后三项则是百度已有技术优势的再创新,也是文心一言未来越来越强大的基础。

知识增强方面,文心一言的知识增强主要是通过知识内化和知识外用两种方式。知识内化,是从大规模知识和无标注数据中,基于语义单元学习,利用知识构造训练数据,将知识学习到模型参数中;知识外用,是引入外部多源异构知识,做知识推理、提示构建等等。

检索增强方面,文心一言的检索增强,来自以语义理解与语义匹配为核心技术的新一代搜索架构。通过引入搜索结果,可以为大模型提供时效性强、准确率高的参考信息,更好地满足用户需求。

对话增强方面,基于对话技术和应用积累,文心一言具备记忆机制、上下文理解和对话规划能力,实现更好的对话连贯性、合理性和逻辑性。

百度构建了面向中文、服务应用、富含知识的多样化训练数据,对文心一言进行有监督精调,使其掌握的知识更精准,更懂中文和应用场景,并建立起人类反馈、奖励模型和策略优化之间的飞轮机制,随着真实用户的反馈越来越多,文心一言的效果会越来越好,能力越来越强。文心一言融合不同类型数据和知识,自动构造提示,包括实例、提纲、规范、知识点和思维链等,提供了丰富的参考信息,激发模型相关知识,生成高质量结果。

王海峰强调,飞桨深度学习平台支撑文心一言效果更好、效率更高、性能更强。对于开发训练,飞桨动静统一的开发范式,以及自适应分布式架构,可以实现大模型的灵活开发和高效训练。在推理部署方面,飞桨支持大模型高效推理,并提供服务化部署能力,包括计算融合、软硬协同的稀疏量化、模型压缩等等。如今,飞桨平台已凝聚535万开发者,服务20万企事业单位,基于飞桨创建了67万个模型。

文心大模型加上飞桨深度学习平台,夯实了产业智能化基座。随着文心一言与飞桨平台的进一步融合发展,人工智能技术和应用的研发将越来越标准化、自动化和模块化,加速人工智能的工业大生产,同时也反哺文心一言加速迭代进化,落地更多场景和行业,为千行百业智能化升级带来不竭动力。

有关百度CTO王海峰:全栈AI技术加持,打造新一代大语言模型文心一言的更多相关文章

  1. 未来的趋势————以ChatGPT为标杆的AI对生活的影响是巨大的 - 2

    文章目录前言1.AI的发展历程2.我是如何接触到人工智能的概念和产品的3.对于ChatGPT的一点看法4.AI对大学毕业生的职业发展的利与弊5.对于AI的思考和问题前言随着ChatGPT的爆火,生成式AI,大模型的人工智能被越来越多的人注意到,同时他也带来了许多问题。本文将对几方面进行探讨。1.AI的发展历程远古时期在公元前第一个千禧年,中国,印度和希腊哲学家都提出了一些推理的研究理论,比如亚里士多德(Aristotle)进行了演绎推理三段论的完整分析,欧几里得(Euclid)所著Elements是一种形式推理的模型,MuḥammadibnMūsāal-Khwārizmī,发明了代数学,即我们

  2. 焕新古文化传承之路,AI为古彝文识别赋能 - 2

    目录1古彝文与古典保护2古文识别的挑战2.1西文与汉文OCR2.2古彝文识别难点3合合信息:古彝文保护新思路3.1图像矫正3.2图像增强3.3语义理解3.4工程技巧4总结1古彝文与古典保护彝文指的是云南、贵州、四川等地的彝族人使用的文字,区别于现代意义上的彝文,古彝文指的是在民间流通使用的原生态彝文,多达87046字。古彝文的起源距今至少数千年,是世界上最古老的文字之一。对古彝文字集研究有助于理解尚未被翻译成汉文、用字尚未规范化的古籍,更深层、透彻地作用于传统文化保护。古彝文字义对照图(网络资料+邵文苑供图)古籍是不可再生的宝贵资源,应当得到妥善保护。中国的古籍在历史上迭经水火兵燹等自然灾害、

  3. 「认识AI:人工智能如何赋能商业」【04】机器学习的商业应用 - 2

    作者|Harper审核 |gongyouliu编辑|auroral-L机器学习的商业应用上期给大家介绍了机器学习的概念,但是理解机器学习最好方法之一,就是了解其在具体商业世界中的各种应用。在道格’罗斯的这本《认识AI,人工智能赋能商业》中,介绍了几类机器学习的商业应用,在这里我给大家归纳一下。第一,数据安全,为了避免被发现,制造恶意软件的人会不断更改代码,通常为2%~10%的修改,但是通过机器学习,安全软件可以适应这一小部分变化,并准确识别新创建的恶意软件。它还可以寻找访问方式的模式,以识别可能的安全威胁。第二,投资。机器学习使得计算机能够处理大量的财务数据,并利用其发现的规律预测市场及每只股

  4. win10系统下Edge浏览器搜索引擎[必应]和新建标签页被篡改百度的一种解决方式 - 2

    一、我的情况:win10系统下Edge浏览器搜索引擎[必应]和新建标签页被篡改百度的搜索引擎和百度的页面我的解决方案步骤如下:1.检查电脑管家的浏览器保护检查一下你的电脑是否后台开启了电脑管家;如果是,则检查一下是否开启了浏览器保护。由于我是联想的笔记本,自带联想管家,一直没有关闭过它,以我的电脑为例,进行关闭,如下图所示。其他的电脑管家软件,应该也有类似的功能,耐心找一下就能找到啦。2.在Edge浏览中进行相关设置先点击浏览器右上角的三个点,然后找到“设置”,然后进入设置界面。在当前页面手动搜索“搜索引擎”,然后选择需要的搜索引擎“必应”,然后点击管理搜索引擎。进入管理搜索引擎界面后,理论上

  5. 基于ChatGPT的智能问答、ai绘图微信小程序思路 - 2

    ChatGPT![在这里插入图片描述](https://img-blog.csdnimg.cn/186d9ecc453b48be9f19c467da7c3f07.jpegChatGPT是openai公司的一个人工智能机器人产品,目前已经升级到4.0版本。其因便捷高效,已经在大学生、IT届、科研界等领域广为流传。但是直接进入其官网使用有时候并不是那么方便,毕竟他不开放给中国用户使用,我们需要一些魔法才能用上。如果做成一个微信小程序随时随地打开就能用的话,会方便很多。正好openai官方也开放了api供开发者使用。我们可以进入openai官网https://platform.openai.com/

  6. 推出 JetBrains Aqua:为测试自动化打造的强大 IDE初步了解 - 2

    目录啥是Aqua? 视频介绍初体验​小伙伴可能遇到问题总结:啥是Aqua?        JetBrainsAqua是一款可以感知上下文的智能IDE,能够理解Java、Kotlin、Python、JavaScript、TypeScript和SQL等语言,并为每种语言提供智能编码辅助。详情链接JetBrainsAqua官网速达-下载         在Aqua中,我们融合了测试自动化工程师在日常工作中需要的一切,包括多语言IDE(支持JVM、Python和JavaScript等)、HTTP客户端、数据库管理功能、Docker支持、TMS客户端,以及一款用于UI自动化的新型强大Web检查器。 视频

  7. AI 芯片的简要发展历史 - 2

    随着人工智能领域不断取得突破性进展。作为实现人工智能技术的重要基石,AI芯片拥有巨大的产业价值和战略地位。作为人工智能产业链的关键环节和硬件基础,AI芯片有着极高的技术研发和创新的壁垒。从芯片发展的趋势来看,现在仍处于AI芯片发展的初级阶段。未来将是AI芯片发展的重要阶段,无论是架构还是设计理念都存在着巨大的创新空间。一、芯片的发展历史1956年达特茅斯会议上,科学家约翰·麦卡锡,克劳德·香农和马文·明斯基提出了"人工智能"一词。50年代末,阿瑟·萨缪尔(ArthurSamuel)提出了"机器学习"这个术语,他开发了一个西洋跳棋程序,可以从错误中吸取教训,经过学习后,甚至比编写程序的人棋力更强

  8. 文心一言发布的个人看法 - 2

    文心一言发布宣传视频按照发布会上说的,文心一言并非属于百度赶工抄袭Chat-GPT的作品,而是十几年一直布局AI产业厚积薄发的成果,百度在芯片,机器学习,自然语言处理,知识图谱等方面均有相对深厚的积累。国内互联网目前真正有核心竞争力的产品并不多。多数处于应用层,导致内卷无限加剧。这个姑且不算为绝对的”创新“,目前文心一言仅仅对中文训练有达到一定的成熟度,英文支持并不友好。开放内测的目的是为了,利用公共资源进一步完善文新一言训练。关于创造力的一些理论富有创造力的人通 常有他们自己的理论,而且彼此间的理论相当不同。罗伯特· 高尔文说 创造力包含预期与奉献:预期是指在其他人认识到之前,便预见到某个事

  9. Javascript 和 AI,事实还是虚构? - 2

    很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visitthehelpcenter.关闭11年前。在电视上我看到了一些有趣的机器人。这些有一些二极管、太阳能收集器和一些马达。二极管决定光的位置,因此它们将机器人转向为它提供光的方向。它有点跟随光。现在,基于此,我想知道一些简单的AI。有没有办法编写一个可以从用户交互中学习的引擎?作为初学者,只学习和记住用户在页面上的session就足够了。感谢任何帮助。

  10. 法大大音视频双录新品,打造企业合规新体验 - 2

    “法大大音视频双录产品在保障线上签署安全合规的基础上,充分尊重‘客户的客户’的体验感。相比签约后再点击上传身份认证资料进行证据保全,我们更倾向在签约当下就获取签约主体的同意,将签署意愿认证及签约过程同步上传至司法链,进行数据存证,保证线上签约的合规闭环。整个流程用户只需点选一次,无多余操作。同时,我们的产品不仅可灵活适配法大大旗下产品,也可与客户其他业务系统快速对接,满足电子合同场景之外的取证和存证需求。”——张霖法大大证据中心副总经理2020年,《中国银保监会办公厅关于进一步做好疫情防控金融服务的通知》指出:要加强科技应用,创新金融基础服务方式。各银行保险机构要积极推广线上业务,在有效防控风

随机推荐