草庐IT

AI未来十年新范式,生成式人工智能的挑战与机遇

Mr.Winter` 2023-04-12 原文

目录

0 写在前面

2023年3月18日,由中国图象图形学学会(CSIG)主办,合合信息、CSIG文档图像分析与识别专业委员会联合承办的“CSIG图像图形企业行”系列活动将正式举办,通过搭建学术界与企业交流合作平台,为企业创新发展提供科技支撑,为图像图形领域高校师生提供与企业互动机会,集结产学研力量,共同推动图像图形领域的发展。


很荣幸聆听了上海交通大学人工智能研究院常务副院长、人工智能教育部重点实验室主任杨小康教授关于生成式人工智能(Generative AI)的技术分享。在讲座中,我看到了人工智能在图形图像领域日新月异的变化,以及前沿技术赋能生产、生活的无限可能。

1 什么是生成式模型?

杨小康:判别式模型支撑了人工智能的过去十年,而生成式模型是人工智能的未来十年

贯穿讲座中的一个很重要的概念就是生成式模型,那么什么是生成式模型?为什么说生成式模型是人工智能的未来十年呢?

我们知道,机器学习模型主要分为两类:

  • 判别式模型(discriminative models)
  • 生成式模型(generative models)

对于给定样本 x \boldsymbol{x} x,前者通过对后验概率 P ( y ^ ∣ x ) P\left( \hat{y}|\boldsymbol{x} \right) P(y^x)建模求得数据的最优决策边界;后者通过对联合概率 P ( x , y ^ ) P\left( \boldsymbol{x},\hat{y} \right) P(x,y^)建模求得数据各模式的决策边界。

机器学习模型的分类(绿色为新样本)

如图所示,判别式模型通过最优决策边界计算 P ( y ^ ∣ x ) P\left( \hat{y}|\boldsymbol{x} \right) P(y^x),并选择使 P ( y ^ ∣ x ) P\left( \hat{y}|\boldsymbol{x} \right) P(y^x)较大的 y ^ \hat{y} y^作为 x \boldsymbol{x} x的预测值;生成式模型通过比较样本 x \boldsymbol{x} x与模型各模式间的相近程度,即通过联合概率间接计算样本 x \boldsymbol{x} x对各模式的后验概率,并选择使后验概率较大的 y ^ \hat{y} y^作为 x \boldsymbol{x} x的预测值

两类模型的具体对比如表所示

项目判别式模型生成式模型
特点寻找最优决策边界,反映不同模式数据间的差异性寻找各模式边界,反映数据全体的统计全貌及不同模式间的相似度
联系由生成式模型可推导判别式模型,反之不成立
本质对后验概率建模对联合概率建模
实例线性回归、Logistic回归、支持向量机、决策树、神经网络等贝叶斯网络、贝叶斯分类器、隐马尔科夫模型等
性能学习过程更简单,但不能反映数据本身特性模型信息量更丰富、灵活,但学习过程较复杂
应用图像文本分类、时间序列预测等自然语言处理等

从上面的分析可以看出:生成式模型和判别式模型是两种截然不同的人工智能模型。判别式模型的主要任务是对给定输入进行分类或标记,而生成式模型则是根据给定的条件生成新的数据。

在过去,人们只希望基于已有的给定数据做一些预测和拟合,因此判别式模型得到发展并且很好地解决了大部分任务;而未来,人们将目标转向用生成式模型生成全新数据,进行迁移学习等,也就是常说的人工智能生成内容(AI Generated Content, AIGC)

图源网络,侵删

为什么我们需要生成全新数据?

答案很简单:我们希望提高人工智能的工作上限,就不能仅仅依靠它对已有数据的拟合,而是像人一样有一定的创新能力。

生成式模型相比判别式模型的独特优势,使之可以应对更多的任务,例如推动内容开发、视觉艺术创作、数字孪生、自动编程,甚至为科学研究提供AI视角、Al直觉…因此生成式人工智能的未来发展趋势。

针对生成式人工智能,杨小康教授还提出了一个有意思的问题

预计到2025,生成式人工智能产生的数据将占据人类全部数据的10%,那么根据二八原则,当生成式数据超过80%的时候,人类是否全面进入元宇宙?

大家可以思考一下~

2 生成式模型的挑战

挑战与机遇并存,生成式模型带来广阔前景的同时,也存在着非常大的挑战。杨小康教授主要总结了三点:

  • 解空间巨大

    大家对高等代数中的解空间可能比较陌生,但是在人工智能领域有一个更形象的词——维数灾难(curse of dimensionality)

    如何理解这个问题?首先考虑单个特征的情形,假设在样本 x x x任意小邻域 δ \delta δ内都存在样本,则称对样本空间进行了密采样(dense sample)。例如取 δ = 0.01 \delta =0.01 δ=0.01,则在归一化样本平均分布的情况下需要采样100个样本。

    然而,机器学习任务中通常面临高维特征空间,若特征维数为40,则要实现密采样就需要 1 0 80 10^{80} 1080个样本——相当于宇宙中基本粒子的总数。所以密采样在高维特征空间中无法实现,换言之,高维特征样本分布非常稀疏,给机器学习训练、算法采样优化带来了困难。这种高维情形下机器学习任务产生严重障碍现象就称为维数灾难,维数灾难还会以指数级的规模造成计算复杂度上升、存储占用大等问题。

  • 宏观一致性

    以视频生成为例,需要的像素感受野很大。如何预测目标及结构的长期运动变化?杨小康教授指出现在图像三维重建的一个问题是,重建出来的图像在多个角度呈现的宏观结构可能不一致,比如一个人在做转头的动作,重建出来的人像可能差异较大

  • 微观清晰度

    如何有效逼近多模分布,避免产生模糊预测效果?包括数据不完整、模型不准确、外部干扰等对图像生成造成的影响。例如,在生成图像时,模型可能会将一些细节部分模糊化或缺失,导致生成的图像与原始图像相比缺乏细节。

3 自主智能新架构

前面说过,生成式模型是全新的人工智能模式,核心是让AI创造出新数据。这就要求AI需要像人一样具有对世界的理解,以及基于此的创新能力。

然而,动物和人类表现出的学习能力和对世界的理解,远远超出了 AI 和机器学习系统。一个青少年可以在大约 20 小时的练习中学会开车,小朋友可以在只需要很少的交流后就学会语言沟通,人类可以在他们从未遇到过的情况下采取行动。

相比之下,无论是传统的判别式模型还是现在着力发展的生成式模型,都需要花费比人类大几个量级的试验进行训练,以便在训练期间可以覆盖最意外的情况。尽管如此,我们最好的AI系统在现实世界任务——例如自动驾驶中仍远未达到人类可靠性。

这是否意味着当下的人工智能学习模式,和人工智能模型的发展产生不适配?杨小康教授以此引出图灵奖得住LeCun提出的全新自主智能架构

图源网络,侵删

在上图所示的自主智能架构中包含多个模块,其中的核心也是最复杂的组件是世界模型,因为要实现通用人工智能,最关键的一点是让机器了解世界是如何运转的,掌握广泛的现实知识,并依据此进行推理

世界模型可以

  • 估计感知模块未提供的关于世界状态的缺失信息,例如杨小康教授介绍的神经流体物理仿真推理工作;
  • 预测世界的合理未来状态,由表征世界状态不确定性的潜在变量进行参数化,这是AI学会推理的基础

4 持续学习与表征解耦

世界模型有一个关键的问题:它必须能够表征世界状态的多种可能预测。然而,自然世界不是完全可以预测的,特别是包含具有对抗性的智能体时尤其如此。但即使世界只包含无生命的物体,它们的行为仍然是混乱的,其状态不能完全观察到。因此,在思考世界模型构建方法时,必须考量

杨小康:世界模型的核心问题是使用什么样的学习范式来训练世界模型;以及世界模型采用什么架构,如何用于决策?

毫不夸张的说,未来几十年阻碍人工智能发展的真正障碍是为世界模型设计架构以及训练范式。

4.1 学习范式

什么叫做学习范式?其实就是一种学习的规范方法。

世界模型中一个难点是灾难性遗忘,因为待学习的视觉控制任务是持续变化的,任务间存在先后顺序,和人一样,学习了新知识的AI就会对旧知识有所淡忘。例如,AI对机械臂的运动轨迹预测不准,对环境中其他物体的形貌预测模糊等等;另一个难点称为多重分布漂移,简单来说,就是在学习过程中假设标签分布固定,而只有输入数据分布的漂移而世界模型由于进行自回归训练,输出视频预测结果,因此不仅存在输入数据分布漂移,还存在输出数据分布漂移,以及不同任务间时空动态信息的分布漂移。

图源网络,侵删

可想而知,如果不采取一个好的学习范式,世界模型的泛化能力并不高。针对此,杨小康教授介绍了三种前沿方法:

  • 混合世界模型:变分推断+混合高斯,在各任务上学习独立的隐变量先验,缓解时空动态分布漂移
  • 预测式经验回放:经验回放其实是强化学习中的一个概念,原理是通过固定上一任务学习好混合世界模型参数,用于在后续任务上回放旧任务上的图像序列,回放结果与当前任务的真实数据混合,重新训练世界模型M,缓解输入和输出分布漂移
  • 持续世界模型:训练任务流式到来,训练环境不断变化;持续学习结束后,回测各历史任务,使持续预测学习中的任意阶段都能很好的保持已学习的时空动态信息,生成结果运动明确,物体清晰

4.2 学习架构

世界模型的第二个问题是学习架构,这里采用的核心思想是解耦。杨小康教授举了个例子来说明什么是解耦:当你驱车前往某地,你的驾驶行为不会对其他人的驾驶产生直接影响,每个人都是独立的智能个体,因此可以抽象出来分别考虑,这就是解耦。

解耦后,可以采用分布式的方法降低计算复杂度和整体系统的架构难度。同时,可对未来自然演变做独立外推从而构建有模型强化学习算法。例如,在自动驾驶场景中,驾驶员决策前,提前预判未来环境中可能的趋势——其他车辆的运动,并作出相应决策

图源《Iso-Dream: Isolating and Leveraging Noncontrollable Visual Dynamics in World Models》

针对表征解耦,杨小康教授主要介绍的是自动驾驶场景,他指出通过状态解耦,可以基于对自然状态的独立推演,生成更具有“危险预判能力”的驾驶策略。

总之,解耦架构可以使世界模型的表征难度下降,各组件间依赖降低,在线计算效率提升,是主流学习架构之一。

5 生成式AI与元宇宙

元宇宙(Metaverse)是指一个虚拟的、完全由计算机技术构建的多人在线世界,其概念最早出现在科幻小说中,如尼尔·斯蒂芬森的《雪崩》和安德鲁·尼克松的《Ready Player One》。这个世界是一个可交互的、持久存在的虚拟空间,可以模拟真实世界的各种场景和活动,并允许用户在其中创建、定制和掌控自己的数字化身份。在元宇宙中,用户可以像在现实世界中一样进行各种活动,例如购物、社交、游戏、学习、工作等。用户可以与其他玩家互动,建立社交关系,并在元宇宙中建立自己的数字资产,例如虚拟地产、虚拟货币、虚拟商品等。这些数字资产可以在元宇宙中进行交易,并且可以与现实世界的资产进行交换或转化。

图源网络,侵删

在元宇宙中,人依然是世界的主体,而生成式人工智能就给数字虚拟人的建模提供了有力的工具。使用生成式人工智能,可以大规模、高效地产生高拟真、可泛化、可驱动的虚拟数字人,相比传统计算机图形学的方法可以降低元宇宙数字人的成本。

杨小康教授还介绍了几种前沿方法,例如鲁棒纹理补全的生成对抗网络、基于物理的隐式可微渲染函数等。

元宇宙的发展将会带来许多潜在的商业机会和经济影响。例如,元宇宙中的数字资产可以为开发者和用户带来收入,从而促进元宇宙经济的发展。此外,元宇宙还可以为各种行业提供新的营销和广告机会,从而扩大市场规模。最后,元宇宙也可能会改变人类社会的基本结构和价值观,例如重新定义工作、教育和社交关系的本质。从元宇宙发展的角度看,生成式人工智能的意义重大。

6 智慧文档:赋能数字化转型

上海交通大学模式识别与智能系统博士郭丰俊进一步介绍了合合信息在智能文档处理方面的最新工作,深刻体现了前沿技术赋能数字化转型的源动力。郭丰俊老师主要讲解了

  • ROI提取:单区域提取、多区域提取
  • 形变矫正:倾斜透视矫正、弯曲矫正
  • 图像恢复:阴影去除、摩尔纹去除、反光去除
  • 质量增强:清晰度提升、增强锐化

等众多文档智能处理技术及其应用场景,例如表格矫正、文件手写擦除、电子屏幕去除摩尔纹干扰等。


这些智能文档处理应用极大提高了信息的处理效率和精度。与人工处理相比,智能文档处理具有更高的处理速度和准确性,能够自动化地进行数据抽取、识别、分类和分析等操作。这样,企业和个人可以更快地完成文件处理,减少重复性工作和出错率,提高工作效率。同时,也有助于信息的共享和利用。智能文档处理技术可以将数据转化为结构化的信息,使得文档内容更容易被计算机识别和处理。这样一来,不同部门和人员可以更方便地共享文件和信息,并快速获取所需的数据,从而促进了企业内部信息的流动和协作。

听完郭丰俊老师的讲解,深刻体会到智能文档处理技术对数字化转型的推动作用。相信通过应用智能文档处理技术,企业和个人可以更好地管理和利用信息,提高生产和服务的质量和效率。

7 结语

我相信,在不久的将来,生成式人工智能会更智能化和自适应,它们能够更好地理解我们的语言和文化背景,并适应不同场景和情境;更加多样化和具有创造力,以图像、音频、视频等多种模态,为人类带来更加丰富多彩的体验。同时,人工智能会更加可信和安全,能够识别和纠正错误和偏见,并能够避免生成虚假信息和恶意内容。

最后,感谢合合信息这次以图文智能处理与多场景应用技术展望为主题的系列技术交流活动,让我近距离接触学术界、工业界领军人物带来的前沿技术和研究成果分享。近年来,合合信息在智能文字识别技术先后在ICDAR、ICPR等人工智能国际竞赛中斩获15项冠军,学术成果在CVPR、AAAI、ACL等顶会上发表,相关项目获中国图象图形学学会(CSIG)科技进步奖二等奖。

除了技术深度,在科技温度上合合信息也展现了自己的能力,例如钟鼎文识别、古彝文识别、甲骨文金文识别等,相信未来合合信息会给我们带来更多期待。

有关AI未来十年新范式,生成式人工智能的挑战与机遇的更多相关文章

  1. 玩以太坊链上项目的必备技能(初识智能合约语言-Solidity之旅一) - 2

    前面一篇关于智能合约翻译文讲到了,是一种计算机程序,既然是程序,那就可以使用程序语言去编写智能合约了。而若想玩区块链上的项目,大部分区块链项目都是开源的,能看得懂智能合约代码,或找出其中的漏洞,那么,学习Solidity这门高级的智能合约语言是有必要的,当然,这都得在公链``````以太坊上,毕竟国内的联盟链有些是不兼容Solidity。Solidity是一种面向对象的高级语言,用于实现智能合约。智能合约是管理以太坊状态下的账户行为的程序。Solidity是运行在以太坊(Ethereum)虚拟机(EVM)上,其语法受到了c++、python、javascript影响。Solidity是静态类型

  2. 智能客服 | 浅谈人工智能聊天机器人ChatGPT - 2

    2022年底,OpenAI的预训练模型ChatGPT给人工智能领域的爱好者和研究人员留下了深刻的印象和启发,他展现的惊人能力将人工智能的研究和应用热度推向高潮,网上也充斥着和ChatGPT的各种聊天,他可以作诗、写小说、写代码、讨论疫情问题等。下面就是一些他的神回复:人命关天的坑: 写歌,留给词作者的机会不多了。。。 回答人类怎么样面对人工智能: 什么是ChatGPT?借用网上的一段介绍,ChatGPT是由人工智能研究实验室OpenAI在2022年11月30日发布的全新聊天机器人模型,一款人工智能技术驱动的自然语言处理工具。它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动

  3. ruby-on-rails - Ruby 挑战 - 方法链和惰性求值 - 2

    看完文章http://jeffkreeftmeijer.com/2011/method-chaining-and-lazy-evaluation-in-ruby/,我开始寻找更好的方法链和惰性求值解决方案。我想我已经用以下五个规范概括了核心问题;谁能让他们全部通过?任何事情都可以:子类化、委托(delegate)、元编程,但不鼓励后者。最好将依赖性保持在最低限度:require'rspec'classFoo#EpiccodehereenddescribeFoodoit'shouldreturnanarraycorrespondingtothereverseofthemethodchai

  4. 科创人·数智未来私董会第4期:转型的实证-幸存者偏差与盲人摸象 - 2

    所有技术终将演变为基础设施。2022年6月11日,科创人·数智未来私董会第4期活动在线举办,本次活动由科创人、北航投资、方云智能联合举行;微软(中国)首席技术官韦青担任本期活动主讲嘉宾,携手14位企业高级决策者围绕数智未来课题进行深度探讨。科创人·数智未来私董会第3期活动回顾|《狗尾巴的故事-数智时代的第一性原理》与会嘉宾依次是:微软(中国)CTO韦青、领鹊科技创始人&CEO张志祥、食方科技创始人&CEO黄龚、中科云创创始人&CEO周北川、北航投资总经理王剑飞、中煤信息技术首席专家黄韶杰、天云数据创始人&CEO雷涛、中国农业银行科技与产品管理局信息安全与风险管理处处长何启翱、索迩科技创始人&C

  5. 未来的趋势————以ChatGPT为标杆的AI对生活的影响是巨大的 - 2

    文章目录前言1.AI的发展历程2.我是如何接触到人工智能的概念和产品的3.对于ChatGPT的一点看法4.AI对大学毕业生的职业发展的利与弊5.对于AI的思考和问题前言随着ChatGPT的爆火,生成式AI,大模型的人工智能被越来越多的人注意到,同时他也带来了许多问题。本文将对几方面进行探讨。1.AI的发展历程远古时期在公元前第一个千禧年,中国,印度和希腊哲学家都提出了一些推理的研究理论,比如亚里士多德(Aristotle)进行了演绎推理三段论的完整分析,欧几里得(Euclid)所著Elements是一种形式推理的模型,MuḥammadibnMūsāal-Khwārizmī,发明了代数学,即我们

  6. 焕新古文化传承之路,AI为古彝文识别赋能 - 2

    目录1古彝文与古典保护2古文识别的挑战2.1西文与汉文OCR2.2古彝文识别难点3合合信息:古彝文保护新思路3.1图像矫正3.2图像增强3.3语义理解3.4工程技巧4总结1古彝文与古典保护彝文指的是云南、贵州、四川等地的彝族人使用的文字,区别于现代意义上的彝文,古彝文指的是在民间流通使用的原生态彝文,多达87046字。古彝文的起源距今至少数千年,是世界上最古老的文字之一。对古彝文字集研究有助于理解尚未被翻译成汉文、用字尚未规范化的古籍,更深层、透彻地作用于传统文化保护。古彝文字义对照图(网络资料+邵文苑供图)古籍是不可再生的宝贵资源,应当得到妥善保护。中国的古籍在历史上迭经水火兵燹等自然灾害、

  7. 基于python的短视频智能推荐/django的影视网站/视频推荐系统 - 2

    摘要本论文主要论述了如何使用Python技术开发一个短视频智能推荐,本系统将严格按照软件开发流程进行各个阶段的工作,采用B/S架构,面向对象编程思想进行项目开发。在引言中,作者将论述短视频智能推荐的当前背景以及系统开发的目的,后续章节将严格按照软件开发流程,对系统进行各个阶段分析设计。 短视频智能推荐的主要使用者分为管理员和用户,实现功能包括管理员:首页、个人中心、用户管理、热门视频管理、用户上传管理、系统管理,用户:首页、个人中心、用户上传管理、我的收藏管理,前台首页;首页、热门视频、用户上传、公告信息、个人中心、后台管理等功能。由于本网站的功能模块设计比较全面,所以使得整个短视频智能推荐信

  8. 【毕业设计】基于单片机的智能温控农业大棚系统 - 物联网 stm32 - 2

    文章目录1简介2绪论2.1课题背景与目的3系统设计详细设计描述3.2硬件部分温度测量电路其他电路部分3.3软件部分主程序子系统程序温湿度程序流程键盘显示子程序3.4实现效果3.5部分相关代码4最后1简介Hi,大家好,这里是丹成学长,今天向大家介绍一个单片机项目基于单片机的智能温控农业大棚系统大家可用于课程设计或毕业设计单片机-嵌入式毕设选题大全及项目分享:https://blog.csdn.net/m0_71572576/article/details/1254090522绪论2.1课题背景与目的近年来我国的温室控制取得了长足的进步,首先在温室群控制方面,进行了初步的探索和理论研究,其次在温室

  9. BigData/Cloud Computing:基于阿里云技术产品的人工智能与大数据/云计算/分布式引擎的综合应用案例目录来理解技术交互流程 - 2

    BigData/CloudComputing:基于阿里云技术产品的人工智能与大数据/云计算/分布式引擎的综合应用案例目录来理解技术交互流程目录一、云计算网站建设:部署与发布网站建设:简单动态网站搭建云服务器管理维护云数据库管理与数据迁移云存储:对象存储管理与安全超大流量网站的负载均衡二、大数据MOOC网站日志分析搭建企业级数据分析平台基于LBS的热点店铺搜索基于机器学习PAI实现精细化营销基于机器学习的客户流失预警分析使用DataV制作实时销售数据可视化大屏使用MaxCompute进行数据质量核查使用Quick BI制作图形化报表使用时间序列分解模型预测商品销量三、云安全云平台使用安全云上服务

  10. 如何从智能合约中删除数据 - 2

    如何从智能合约中删除数据有了以太坊,我们可以创建一个有状态的系统,我们可以从存储在智能联系人中的数据中添加和删除数据。这是一个有状态的系统,我们可以改变智能联系人的状态,但这需要向矿工支付一些费用。但是我们如何删除数据呢?这里有一个智能合约,用于向myArray中添加和移除字符串:pragmasolidity^0.4.18;contractExampleApp{string[]myArray;functionadd(stringx)public{myArray.push(x);}functiondel(stringx)public{for(uintj=0;jadd()函数相当简单,我们基本上只

随机推荐