草庐IT

梅宏院士等:大数据技术的四大挑战与十大趋势

朱文凤 2023-03-28 原文
日前,中科院院士梅宏联合中国人民大学、华中科技大学、中科院计算技术研究所、中国科学院大学、北京理工大学多位专家,发布最新论文《大数据技术前瞻》。该文在计算体系重构的背景下,指出了大数据技术发展的四大技术挑战和十大发展趋势。

新型大数据系统技术的四大挑战

挑战一:如何构建数据为中心的计算体系

全球大数据规模增长快速,2020年全球新增数据规模为64ZB,是2016年的400%,2035年新增数据将高达2140ZB1,大数据呈现指数级增长。随着数字经济的发展和数字化转型的深入,愈来愈多的数据资源正以数据要素的形态独立存在并参与数字经济活动全过程。因此构建以数据为中心的新型计算体系,以适用新的应用环境。如何组织和管理超大规模的数据要素已经成为一项难题:例如,针对大数据管理,面临数据跨域访问带来的各种问题、系统规模持续增大带来的可用性下降、维护大规模数据带来的成本和能耗持续增高等严峻挑战。

挑战二:如何满足大数据高效处理的需求

数据规模呈指数级增长,数据动态倾斜、稀疏关联、应用复杂,传统大数据处理架构数据处理成本高企、时效性差,如何满足规模海量、格式复杂、需求多变的大数据高效处理需求是大数据处理面临的重要挑战。

挑战三:如何实现多源异构大数据的可解释性分析

随着数据量持续地爆炸式增长和各类应用的不断拓展与深化,基于深度学习的主流方法因其仅关注单源单模态数据且模型只知其然不知其所以然的特性已无法满足发展需求。如何打破数据多源异构造成的隔阂,融合多域甚至全域数据中蕴含的知识,实现分析结果的可解释,从而提升其可用性,是当前大数据分析面临的主要挑战。

挑战四:如何形成系统化大数据治理框架与关键技

针对大数据应用过程中的对数据汇聚融合、质量保障、开放流通、标准化和生态系统建设的需求,大数据治理技术逐渐成为发展热点,然而当前系统化的大数据治理框架尚未形成,开放共享、质量评估、价值预测等关键技术远未成熟,成为制约大数据发展的主要瓶颈。

大数据技术十大未来发展趋势

趋势一:数据与应用进一步分离,实现数据要素化

数据从一开始是依附于具体应用的。数据库技术的出现使得数据与应用实现了第一次分离。数据存储在数据库中,不再依赖具体的应用而存在。数据要素化的需求将推动数据与应用进一步分离,数据不再依赖于具体的业务场景,数据以独立的形态而存在于数据库中,并通过数据服务向不同的业务场景提供服务。例如,人口数据库,可以向全部的涉及人口信息的业务场景提供服务。

趋势二:数联网作为数字化时代的新型信息基础设施

将形成一套完整的数联网基础软件理论、系统软件架构、关键技术体系,包括:针对数联网软件以数据为中心的特点,需要从复杂网络和复杂系统等复杂性理论出发,研究数联网软件的结构组成、行为模式和外在性质;针对数联网软件的数据传存算一体化需求,需要采用数据互操作技术和软件定义思想,研究数联网软件运行机理、体系结构与关键机制;针对数联网软件跨层级、跨地域、跨系统运行带来的可靠性、可用性、安全性等质量挑战,需要以数据驱动为手段,研究数联网环境下保障服务质量与保护质量的原理、机制与方法。

趋势三:从单域到跨域数据管理,促进数据要素的共享与协同

数据为中心计算的核心目标是数据价值的最大化,关键要打破“数据孤岛”,实现数据要素的高效共享与协同。传统数据管理局限在单一企业、业务、数据中心等内部,未来大数据管理将从传统的单域模式发展到跨域模式,跨越空间域、管辖域和信任域。但跨空间域造成网络时延较高且不稳定;跨管辖域造成数据与应用异构,数据管理复杂度大大提升;跨信任域则要求具备容忍各类恶意错误的能力,跨域带来的这些变化将为大数据技术带来了新的机遇和挑战。

趋势四:大数据管理与处理系统体系结构异构化日趋明显

体系结构创新进入“黄金十年”,围绕不同数据处理特征的新型加速器(GPU、TPU、APU 等各种xPU)层出不穷,存储器件快速发展,高速SSD、新型非易失内存、新型计算网络等成为大数据处理系统的重要硬件配置,计算与存储的融合趋势明显。为极大程度发挥数据管理能力,大数据管理系统在存储、网络、计算等硬件上最大化挖掘新型硬件的处理能力。在处理上针对不同数据处理需求,配置不同计算与存储硬件成为大数据处理系统的主流架构。数据驱动的计算架构快速发展,从控制流到数据流到系统设计切换成为大数据处理系统从微观到宏观的重要体系结构设计理念。

趋势五:扩展性优先设计到性能优先设计

数据规模急剧增长,大数据处理需求越来越走向深度价值挖掘,数据处理计算愈发密集,数据管理与处理的成本成为大数据管理与处理系统的重要考量因素,传统“以扩展性优先”的大数据处理系统设计将会被“以性能优先”的系统设计所替代。Spark、Flink 等系统在大数据处理生态系统中的占有率明显体现了这一趋势,图计算(图加速器、图计算框架等)、深度学习框架(Tensorflow、PyTorch 等)等领域专用大数据处理系统的崛起也是这一系统设计理念在技术生态上的表现。智能化数据管理、近似计算等新兴管理与处理方法成为性能优先设计的重要技术手段。

趋势六:近数处理成为突破大数据处理系统性能瓶颈的重要途径

存算一体类体系结构技术快速发展,新型SSD等新型存储赢家功能愈发丰富,分布式计算系统边缘能力迅速发展,以上三种体系结构技术发展为大数据近数处理提供了良好的发展契机。近数处理体现在“存储上移”(如在GPU、FPGA 等计算设备上集成HBM)、“算力下沉”(如在DRAM 内存或者SSD 存储设备上集成处理能力)、“分布扩展”(如在云、边、端分布式处理数据,降低数据处理中心压力)。

趋势七:从单域单模态分析到多域多模态融合,实现广谱关联计算

传统大数据分析技术大多仅聚焦于单一来源单一模态数据,而实际应用中往往要对来自不同来源不同模态(如文本、图像、音视频等)的数据进行联合分析,从而实现不同来源与不同模态数据之间的信息互补。此外,诸多领域的大数据往往具有重要的时空属性,当前研究对这类信息的利用还不太充分。因此,探究能够跨模态关联、跨时空关联的广谱关联技术是大数据分析处理的一个重要趋势。

趋势八:从聚焦关联到探究因果,实现分析结果可解释

如何让大数据分析模型更加稳定且具有可解释性,从而使其分析结果对用户而言变得更加可信、更为可用最好还能具备一定的可回溯性是大数据分析面临的巨大挑战。虽然已有因果推断与可解释性分析技术取得了一定进展,但总体来说尚处于起步阶段,离实际应用还有很长一段距离。因此,从关联到因果也是未来大数据分析技术的重要研究方向。

趋势九:高能效大数据技术是可持续发展的关键

全球大数据的持续高速增长,尤其是碳达峰、碳中和目标的提出,要求大数据技术栈必须走低碳高效、可持续发展的路线。例如云数据管理系统以资源共享、节能高效为主要特点,将是未来大数据管理的主要基础形态;在云数据管理基础上的全国一体化高能效大数据管理,可以进一步由于算力和数据要素的大规模调度与流通,将成为未来大数据管理的主要方向,形成低碳发展新格局。

趋势十:大数据标准规范和以开源社区为核心的软硬件生态系统将成为发展的重点

随着大数据在各个领域应用的迅速普及,标准化需求将不断增长,与大数据流动融合、质量评估,及与行业、领域应用密切相关的大数据标准将成为发展重点。开源社区在大数据软硬件生态建设中的地位不断加强,对开源社区的主导权争夺将成为各国技术、产品和市场竞争的重要战场。朱文凤

有关梅宏院士等:大数据技术的四大挑战与十大趋势的更多相关文章

  1. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  2. ruby - Ruby 有 `Pair` 数据类型吗? - 2

    有时我需要处理键/值数据。我不喜欢使用数组,因为它们在大小上没有限制(很容易不小心添加超过2个项目,而且您最终需要稍后验证大小)。此外,0和1的索引变成了魔数(MagicNumber),并且在传达含义方面做得很差(“当我说0时,我的意思是head...”)。散列也不合适,因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题,但我很想知道:Ruby标准库是否已经带有这样一个类? 最佳

  3. ruby - 我如何添加二进制数据来遏制 POST - 2

    我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_

  4. 世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2

    无论您是想搭建桌面端、WEB端或者移动端APP应用,HOOPSPlatform组件都可以为您提供弹性的3D集成架构,同时,由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台(桌面/WEB/APP,而且某些客户端是“瘦”客户端)快速、方便地将数据接入到3D应用系统的解决方案,并且当访问数据时,在各个平台上的性能和用户体验保持一致,HOOPSPlatform将帮助您完成。利用HOOPSPlatform,您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品,HOOPSSDK包含的技术有:快速且准确的CAD

  5. Unity 热更新技术 | (三) Lua语言基本介绍及下载安装 - 2

    ?博客主页:https://xiaoy.blog.csdn.net?本文由呆呆敲代码的小Y原创,首发于CSDN??学习专栏推荐:Unity系统学习专栏?游戏制作专栏推荐:游戏制作?Unity实战100例专栏推荐:Unity实战100例教程?欢迎点赞?收藏⭐留言?如有错误敬请指正!?未来很长,值得我们全力奔赴更美好的生活✨------------------❤️分割线❤️-------------------------

  6. FOHEART H1数据手套驱动Optitrack光学动捕双手运动(Unity3D) - 2

    本教程将在Unity3D中混合Optitrack与数据手套的数据流,在人体运动的基础上,添加双手手指部分的运动。双手手背的角度仍由Optitrack提供,数据手套提供双手手指的角度。 01  客户端软件分别安装MotiveBody与MotionVenus并校准人体与数据手套。MotiveBodyMotionVenus数据手套使用、校准流程参照:https://gitee.com/foheart_1/foheart-h1-data-summary.git02  数据转发打开MotiveBody软件的Streaming,开始向Unity3D广播数据;MotionVenus中设置->选项选择Unit

  7. 使用canal同步MySQL数据到ES - 2

    文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目,Java开发。基于数据库增量日志解析,提供增量数据订阅&消费。Git地址:https://github.co

  8. ruby-on-rails - 创建 ruby​​ 数据库时惰性符号绑定(bind)失败 - 2

    我正在尝试在Rails上安装ruby​​,到目前为止一切都已安装,但是当我尝试使用rakedb:create创建数据库时,我收到一个奇怪的错误:dyld:lazysymbolbindingfailed:Symbolnotfound:_mysql_get_client_infoReferencedfrom:/Library/Ruby/Gems/1.8/gems/mysql2-0.3.11/lib/mysql2/mysql2.bundleExpectedin:flatnamespacedyld:Symbolnotfound:_mysql_get_client_infoReferencedf

  9. STM32读取串口传感器数据(颗粒物传感器,主动上传) - 2

    文章目录1.开发板选择*用到的资源2.串口通信(个人理解)3.代码分析(注释比较详细)1.主函数2.串口1配置3.串口2配置以及中断函数4.注意问题5.源码链接1.开发板选择我用的是STM32F103RCT6的板子,不过代码大概在F103系列的板子上都可以运行,我试过在野火103的霸道板上也可以,主要看一下串口对应的引脚一不一样就行了,不一样的就更改一下。*用到的资源keil5软件这里用到了两个串口资源,采集数据一个,串口通信一个,板子对应引脚如下:串口1,TX:PA9,RX:PA10串口2,TX:PA2,RX:PA32.串口通信(个人理解)我就从串口采集传感器数据这个过程说一下我自己的理解,

  10. SPI接收数据异常问题总结 - 2

    SPI接收数据左移一位问题目录SPI接收数据左移一位问题一、问题描述二、问题分析三、探究原理四、经验总结最近在工作在学习调试SPI的过程中遇到一个问题——接收数据整体向左移了一位(1bit)。SPI数据收发是数据交换,因此接收数据时从第二个字节开始才是有效数据,也就是数据整体向右移一个字节(1byte)。请教前辈之后也没有得到解决,通过在网上查阅前人经验终于解决问题,所以写一个避坑经验总结。实际背景:MCU与一款芯片使用spi通信,MCU作为主机,芯片作为从机。这款芯片采用的是它规定的六线SPI,多了两根线:RDY和INT,这样从机就可以主动请求主机给主机发送数据了。一、问题描述根据从机芯片手

随机推荐