草庐IT

AIGC时代:未来已来

华为云开发者社区 2023-03-31 原文
摘要:人工智能的快速发展使得我们进入了AIGC时代。AIGC时代的到来,将会带来巨大的机遇和挑战。

本文分享自华为云社区《GPT-4发布,AIGC时代的多模态还能走多远?系列之一: AIGC时代:未来已来》,作者: ModelArts 开发 。

人工智能的快速发展使得我们进入了AIGC时代,即人工智能与图形计算相结合的时代。在这个时代,人们可以利用云计算、大数据分析等技术来处理和呈现多模态信息。例如,AI系统可以通过语音和图像识别技术对多媒体文件进行分析,从而实现智能的分类、检索和推荐。此外,随着5G和物联网技术的不断发展,多模态信息的处理和应用将会越来越普及。AIGC时代的到来,将会带来巨大的机遇和挑战。

01 AIGC时代:万物皆可AI生成

AIGC是一种可以广泛应用于文本、图像、音频和视频生成的人工智能技术。在文本生成方面,它可以运用多种算法进行创作,例如Jasper、copy.Ai、ChatGPT、Bard和GTP4等。在图像生成领域,它可以使用技术如EditGAN、Deepfake、DALL-E和Stable Diffusion等,创造出各种令人惊叹的图片。对于音频生成,AIGC也拥有许多强大的工具,如DeepMusic、WaveNet、Deep Voice和MusicAutoBot等,可以生成高质量的音乐和声音效果。最后,对于视频生成,AIGC同样可以提供很多资源,比如Deepfake、VideoGPT、GliaCloud和ImageVideo等,能够制作出专业级别的视觉效果和动画。总之,AIGC在多个领域都有着广泛的应用前景,并且将会继续不断地发展和完善。

(以上图来自网络)

02 多模态大模型的分类与发展脉络

在单模态模型阶段(2012年前),深度学习技术没有普及,研究人员主要关注单一类型的数据处理,例如图像分类模型AlexNet等。

紧接着进入单模态模型融合阶段(2012-2018年),随着深度学习技术的不断发展和应用场景的多样化,研究人员开始尝试将多个单模态模型进行融合,实现不同数据类型之间的交叉学习和融合,例如HT100M、LXMERT、VisualBERT、videoBERT等模型。

目前已经处于多模态统一大模型阶段(2018年至今),研究人员开始提出采用单个模型处理多个数据类型的方法,这类模型通常包含多种输入和输出方式,需要大量的计算资源和数据支持,已经取得良好的效果。例如UNITER模型,它是一个基于Transformer结构的多模态统一大模型,能够同时处理文本、图片和视频等数据类型。它在内部使用了跨模态交叉注意力机制来实现不同数据类型之间的交互,从而使得整个模型能够更好地理解多种数据的语义信息,并取得了领先的性能。

(以上图来自网络)

03 文图生成AIGC-变得精致,可控

近年来,随着人工智能技术的不断发展,文图生成技术也得到了显著的进步。今天的文图生成模型不仅能够生成逼真高清的图像,还能够实现更精致的效果,并具备可控性。 在实现更精致的效果上,研究人员针对传统GAN模型存在的缺陷,提出了许多改进方法,如Pix2PixHD、SPADE等。这些模型能够增强模型输出的细节表现力,生成更加真实、精细的图像。 在提高模型的可控性上,研究人员引入了条件图像生成的思想。通过给定不同的条件信息,包括语义标签、风格向量等,可以使模型生成更多样化、个性化的图像。例如,BigGAN、StyleGAN2等模型就能够根据不同的条件生成各种风格迥异的图像。除此之外,研究人员还提出了interpolated GAN和controllable GAN等模型,使得用户可以通过插值等方式来精细控制生成图像的各个细节。 总之,文图生成技术在逼真高清的图像生成上取得了巨大的成功,在精细度和可控性方面也有了很大提高,这些技术的不断进步将为我们带来更加优秀、多样化的文图生成应用。

(以上图来自网络)

然而,文图生成AIGC的出现使得画风变得更加逼真高清,更有风格和意境。文图生成是利用人工智能技术根据输入的文本生成图像。在文图生成的研究中,逼真高清、融合多种风格和意境的图像生成是重要的研究方向。其中,高清作画模型如Google Imagen,能够实现高分辨率、逼真的图像生成;而意境绘画模型如StableDiffusion,则注重于将多种风格和意境进行融合,生成更加个性化、有深度的图像。这些模型的应用场景非常广泛,如艺术创作、平面设计等领域。

(以上图来自网络)

04 视频生成AIGC – 自然流畅、栩栩如生

视频生成AIGC(Artificial Intelligence Generated Content)技术正越来越成熟,能够使得生成的视频像真实一样自然流畅、栩栩如生。 视频生成AIGC技术所用的算法和模型也得到了不断的优化和改进。新型的神经网络算法、光学与物理学建模等技术被引入到视频生成AIGC中,使得生成的视频更加逼真。 视频生成AIGC的研究重点在于如何捕捉到影片的场景、运动和情绪,以此生成自然流畅的视频。为此,研究人员将深度学习算法应用于视频生成,使得机器可以从大量的视频数据中学习各种动作和情感,从而产生栩栩如生的视频。此外,生成的视频不仅要接近真实,还要做到自然流畅。研究人员还提出了许多技术手段,比如光流分析、双向循环生成模型等,能够在不同场景下实现平滑过渡,从而使得视频更加自然流畅。 视频生成AIGC技术的发展使得我们可以生成更加逼真、自然流畅的视频,应用场景非常广泛,如影视制作、游戏开发等领域。未来,视频生成AIGC将会进一步推进技术的发展和创新,给我们带来更多的惊喜和新体验。

(以上图来自网络)

05 多模态AIGC大模型驱动的具身智能

多模态AIGC大模型驱动的具身智能是一种人工智能技术,它可以将传感器信号和文本输入结合起来,建立语言和感知的链接,从而操控机器人完成任务规划和物品操作。谷歌推出的5620亿参数PaLM-E就是其中的代表。 这种技术的应用场景也很广泛,如智能家居、无人驾驶和工业自动化等领域。通过大模型驱动的具身智能,机器人可以更加智能地感知周围环境,并根据文本输入来规划相应的行动,实现人机协同。 PaLM-E模型采用了先进的多模态AIGC技术,它可以结合图像、声音、触觉等多个传感器信号来进行深度学习,并从中提取出关键特征。同时,PaLM-E还能够将文本输入转换为语义表示,与感知信息相结合进行综合判断和决策。这种技术的发展使得机器人可以更加智能地感知和理解周围环境,进而实现精准的任务执行和物品操作。 PaLM-E进一步验证了“智慧涌现”在多模感知和具身智能上的效果。

点击此处查看视频

(以上视频来自论文《Google’s PaLM-E is a generalist robot brain that takes commands》)

06 GPT-4 的发布,标志着 AIGC 迈入了多模态融合的新纪元

GPT-4的模型取得了重大突破,它拥有强大的图像识别能力,处理长达 2.5 万字的文本输入,让回答准确性大幅提升,以及能够生成歌词、富有创意的文本,可以实现风格的多样化。

GPT-4 作为一个强大的多模态模型,能够接受图像和文本输入,并输出准确的文本回答。实验证明,GPT-4 在各种专业测试和学术基准上的表现堪比人类水平。举个例子,在模拟律师考试中,GPT-4 能够取得前 10% 的成绩,而 GPT-3.5 则稍显逊色,只能排在倒数 10%。GPT-4 的新功能允许用户指定视觉或语言任务,并以纯文本设置并行处理文本和图像形式的 prompt。具体而言,当输入包含文本和图像时,GPT-4 能生成相应的文本输出,如自然语言、代码等。在许多领域,包括带有文本和照片的文档、图表或屏幕截图等,GPT-4 都展现出了与纯文本输入类似的功能。此外,它还可以利用为纯文本语言模型开发的测试时间技术进行增强,如少样本和思维链 prompt。GPT-4是世界第一款强有力的AI系统,会掀起一场新的工业革命,带来新的社会分工,创造新的应用场景,全面提升人类的智能化水平。

(以上图来自网络)

07 Is the AI GAME OVER?

在Rich Sutton著名文章《苦涩的教训》中,他提出了一个引人深思的观点,即唯一导致AI进步的是更多的数据、更有效的计算。这一观点得到了DeepMind研究主任Nando de Freitas的支持,他甚至宣称AI现在完全取决于规模,AI领域更难的挑战已经解决了,大模型已经(暂时)战胜了精心设计的知识工程。这一观点也得到了实际应用的证明,大量的数据和更强大的计算能力确实对AI技术的发展起着关键作用。 然而,我们也不能因此认为AI的发展已经结束了。如今,虽然大模型已经建立了基础,但真正的挑战仍然在于如何将其应用到实际场景中。例如,在自动驾驶领域,需要考虑不同的天气条件、不同的交通状况等复杂情况,这些都需要AI技术在实际应用中不断实现迭代和优化。 此外,AI在推理、判断和创造等方面仍面临许多挑战,实现真正的智能仍然需要突破。因此,虽然大模型已经取得了重大进展,但AI的发展之路仍然任重而道远。

GPT-4发布,AIGC时代的多模态还能走多远?我将发布四个系列,还会探讨AIGC的阿克琉斯之踵, 多模态认知智能和AIGC for MMKG,敬请期待!

 

点击关注,第一时间了解华为云新鲜技术~

有关AIGC时代:未来已来的更多相关文章

  1. 什么是AIGC? - 2

    目录前言一、什么是AIGC?1、什么是PGC?2、什么是UGC?3、什么是PUCG?4、什么是AIGC?二、总结前言很明显,ChatGPT的爆火,带动了AIGC(AI-GeneratedContent)概念的火热。一、什么是AIGC?GC,全称GeneratedContent,是指创作内容。与之相对应的概念中,有PGC、UGC、PUGC、AIGC。1、什么是PGC?PGC,全称ProfessionalGeneratedContent,指专业生产内容。专业生产内容模式,主要表现为由专家或者机构来进行内容的生产,具备专业的内容生产能力,能够保证内容的专业性。主要应用在知识付费、在线教育、学习平台等

  2. 科创人·数智未来私董会第4期:转型的实证-幸存者偏差与盲人摸象 - 2

    所有技术终将演变为基础设施。2022年6月11日,科创人·数智未来私董会第4期活动在线举办,本次活动由科创人、北航投资、方云智能联合举行;微软(中国)首席技术官韦青担任本期活动主讲嘉宾,携手14位企业高级决策者围绕数智未来课题进行深度探讨。科创人·数智未来私董会第3期活动回顾|《狗尾巴的故事-数智时代的第一性原理》与会嘉宾依次是:微软(中国)CTO韦青、领鹊科技创始人&CEO张志祥、食方科技创始人&CEO黄龚、中科云创创始人&CEO周北川、北航投资总经理王剑飞、中煤信息技术首席专家黄韶杰、天云数据创始人&CEO雷涛、中国农业银行科技与产品管理局信息安全与风险管理处处长何启翱、索迩科技创始人&C

  3. 未来的趋势————以ChatGPT为标杆的AI对生活的影响是巨大的 - 2

    文章目录前言1.AI的发展历程2.我是如何接触到人工智能的概念和产品的3.对于ChatGPT的一点看法4.AI对大学毕业生的职业发展的利与弊5.对于AI的思考和问题前言随着ChatGPT的爆火,生成式AI,大模型的人工智能被越来越多的人注意到,同时他也带来了许多问题。本文将对几方面进行探讨。1.AI的发展历程远古时期在公元前第一个千禧年,中国,印度和希腊哲学家都提出了一些推理的研究理论,比如亚里士多德(Aristotle)进行了演绎推理三段论的完整分析,欧几里得(Euclid)所著Elements是一种形式推理的模型,MuḥammadibnMūsāal-Khwārizmī,发明了代数学,即我们

  4. 互联网时代“陨落”,国家发布元宇宙战略的信号对失业和担心失业的我们带来了什么启迪? - 2

    互联网这头“猪”真的掉下来了流量红利已经一去不复返了!3年前业界其实已经发出各种密集信号,在当时无论是BAT还是一些经济学家在3年前都已经预测过,互联网的流量模式已经衰竭,并且它将一去不复返。曾经处于互联网大潮的我们这一代人有喜有有悲也有感慨。还在4-5年前不少程序员会发觉在一个地方工作一年再跳一家公司,工资翻倍是至少的。其实这不是能力的表现这只不过是因此我们赶上了互联网流利红利、风投资本红利的“风口”而己。“赶上风口就连老母猪都能上树"用于形容当时的情形一点不为过。可是这个“风”这次是真的过去了,因此这头“猪”掉了下来,而且这次摔了还挺狠,直接给摔成了肉饼。业务模式、生态、环境的变革是时代的

  5. 生成式人工智能(AIGC)综述:ChatGPT从GPT-4到GPT-5可以一统AIGC? - 2

    原文题目:《ACompleteSurveyonGenerativeAI(AIGC):IsChatGPTfromGPT-4toGPT-5AllYouNeed?》文章链接:https://arxiv.org/abs/2303.11717https://arxiv.org/abs/2303.11717引言:随着ChatGPT的火热传播,生成式AI(AIGC,即AI生成的内容)因其分析和创造文本、图像等能力而在各地引起了轰动。在如此强烈的媒体关注下,我们几乎不可能错过从某个角度欣赏AIGC的机会。 “一个具有未来科幻感的机器人坐着,手握画笔正在创作一幅五颜六色的图画“由dalle2创作在AI从纯分析转

  6. paddle nlp taskflow 全家桶 包括代码生成与AIGC图片生成 一起探索paddle nlp 开包即用的能力吧 - 2

    paddlenlp作为自然语言处理领域的全家桶,具有很多的不错的开箱即用的nlp能力。今天我们来一起看看基于paddlenlp中taskflow开箱即用的能力有哪些。第一步先升级aistudio中的paddlenlp保持最新版本。pipinstall-UpaddlenlpLookinginindexes:https://pypi.tuna.tsinghua.edu.cn/simpleRequirementalreadysatisfied:paddlenlpin/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages(2

  7. javascript - String 和 Array 泛型方法将在未来被弃用 - 2

    在下面的链接(MDN站点)上它说“字符串泛型是非标准的,已弃用并且将来可能会被删除。请注意,如果不使用下面提供的填充程序,您不能跨浏览器依赖它们。“他们所指的方法是否是他们在该声明下方提供的垫片中列出的方法?这是我见过的唯一提到短语“字符串泛型”的地方,所以让我很困惑。对于数组泛型也有同样的问题,因为该站点也提到了类似的情况。https://developer.mozilla.org/en-US/docs/Web/JavaScript/Reference/Global_Objects/String#String_generic_methodshttps://developer.mozi

  8. javascript - Highstocks 时代时间与时区不匹配 - 2

    我正在尝试使用highstocks库填充图表。我将纪元时间作为x轴的输入。我能够成功生成图表,但问题是highstock转换的纪元时间与我的时区不匹配。例如我输入的纪元时间是:1347497100000转换后的当前结果是:Thu,13Sep201200:45:00GMT预期结果是:2012年9月12日星期三17:45:00GMT-0700此时区不匹配是当前显示的错误值。我也试过设置这个属性,但没有成功:global:{useUTC:false},我在太平洋时区。当我尝试这样做时:console.log(newDate)从同一个脚本,它返回我太平洋时间的时间。请问如何解决时区不匹配的问题

  9. javascript - 用户浏览时代码拆分/预加载内容? - 2

    使用像Webpack这样的工具,我们可以启用代码拆分,并且只在需要时异步加载我们的应用程序代码。带有react-router的react应用程序上下文中的示例。Loadinitialpage.->gotonewroute--->webpackloadsinthecomponentfilerequiredasynchronous.Webpack一直等到需要代码才能发起请求。我的问题是,加载基本应用程序代码后,我们是否可以开始加载其余代码,甚至在用户启动到新路由的转换之前?我的观点是,这将阻止用户等待webpackblock下载。->Loadinitialpage-->usersittin

  10. 基于AIGC的3D场景创作引擎概述 - 2

    通过改变3D场景制作流程复杂、成本高、门槛高、流动性差的现状,让商家像玩转2D一样去玩转3D,让普通消费者也能参与到3D内容创作和消费中,真正实现内容生产模式从PGC/UGC过渡到AIGC,是我们3D场景智能创作引擎一直追求的目标。前言随着元宇宙的大火,国内外各大厂纷纷下场开始为下一代互联网技术布局,旨在为用户提供更好的体验。体验包括方方面面,比如更好的游戏体验、更好的社交体验、更高效的办公体验当然也包括更好的消费体验。作为国内最大的电商平台,我们团队也在持续思考如何基于元宇宙的技术,给消费者带来更好的购物体验以及给商家带来更好的营商体验。回归到电商“人、货、场”三要素上,通过虚拟人技术以及商

随机推荐