4月20日,袋鼠云成功举行了以“数实融合,韧性生长”为主题的2023春季生长大会。会上,袋鼠云自主研发的一站式大数据基础软件——数栈V6.0产品矩阵全新发布。对旗下大数据基础平台、大数据开发与治理、数据智能分析与洞察三大模块的全线产品进行全新升级,并重点发布了企业级数据计算与存储平台——自研大数据引擎 EasyMR。
今年的集体学习会议上强调:“要打好科技仪器设备、操作系统和基础软件国产化攻坚战,提升国产化替代水平和应用规模,争取早日实现用我国自主的研究平台、仪器设备来解决重大基础研究问题。”
袋鼠云作为国内领先的数字化基础软件与应用服务商,自始自终坚持自主创新,专注大数据基础软件研发,利用先进技术赋能更多行业客户数字化转型,助力发掘和释放数据资源的潜在价值。
袋鼠云产研负责人思枢首先介绍了数栈V6.0全新产品矩阵的落地进展以及产品升级方向。通过对多年数字化实践沉淀的梳理、重构和升级,数栈V6.0形成了大数据基础平台层+大数据开发与治理层+数据分析与洞察平台层的全新数字化产品矩阵,以迭代的新组合、新能力、新技术,为数实融合应用注入更强劲的“数栈”驱动力。

整个矩阵中,大数据基础平台是底座,包含全新升级的两款产品:大数据计算引擎EasyMR 和湖仓一体EasyLake。EasyMR 主要提供 Hadoop、Spark、Flink、HBase、Trino 等一键式组件的安装、运维、部署。EasyLake 则主要提供面向数据湖的统一元数据管理,及数据服务和分析。大数据基础平台旨在为各行业的数字化转型提供随时可用的强劲动力和坚实基础。
往上看,中间层大数据开发与治理,它融合了 DataOps 数据理念,包含离线开发BatchWorks、实时开发StreamWorks、数据服务DataAPI、数据资产DataAssets和指标管理DataIndex 五大模块。以自主可控、安全创新为技术内核,将全域数据资产进行汇聚、加⼯、治理、服务、分析,为客户提供安全、稳定、易⽤的⼤数据平台,加速释放数据价值,赋能数智应用。
最上层的数据智能分析与洞察层,提供客户数据洞察UserInsight和数据可视化分析EasyBI两大应用功能。助力企业构建以业务价值为导向的数据分析与应用体系,驱动业务增长。
以下为数栈本次重点升级的大数据计算引擎产品 EasyMR,根据思枢演讲整理而成。
EasyMR 内包含 Hadoop、Hive、Spark、Trino、HBase、Kafka 等计算组件,完全兼容 Apache 开源生态,一键开启 LDAP+Kerberos+Ranger 认证权限体系,支持库/表/行/列级权限控制,提供企业级安全管控。

EasyMR 的集群管理包括以下五大功能:
· 主机管理:可以对接x86服务器、ARM 服务器、Kubernetes 集群等主机类型,进行包括批量接入、主机下架、主机监控等在内的主机操作
· 安装部署:包含自动部署、手动部署、补丁包升/降级、组件回滚等丰富功能
· 集群运维:包含组件启停、健康检查、服务日志查看等功能,以及根据客户业务侧的使用情况实现动态扩缩容
· 监控告警:随着业务的运行,发生主机运行的异常情况,能够实现自动告警
· 基础管理:包括用户管理、操作权限管理、审计日志等功能
EasyMR 的丰富功能能够帮助企业,更全面、更智能、更安全地运用数据,加速企业数字化转型。
● 信创国产化
EasyMR 完成了与主流信创生态厂商的适配互认工作,支持统信UOS、龙蜥、麒麟等国产操作系统,鲲鹏920、飞腾等国产芯片,长城擎天CF520、华为公有云等国产服务器的适配,以及大部分国产数据库、国产中间件的适配。
EasyMR 的更多信创兼容情况请看下图:

● 开源/自主可控
EasyMR 作为袋鼠云自研的大数据基础平台,其大数据组件100%基于开源 Hadoop,完全兼容 Apache 开源生态,与开源社区同步迭代,时刻保持技术的领先性。并且 EasyMR 对 Spark、Flink、Trino、Iceberg 等部分组件特性进行优化增强,回馈社区,以开放心态共建 Hadoop 生态。
● 运维托管服务
EasyMR 提供大数据集群监控告警、安全保障、数据质量保障以及平台运维服务;提供定期巡检、深度体检、成本优化以及高阶调优服务;以及提供包括大数据集群迁移、集群容灾建设、架构设计规划等在内的实施服务,全链路一站式运维托管服务。
● 安全
通过 LDAP+Kerberos+Ranger 这套认证权限体系,对库/表/行/列级进行权限控制,实现企业级安全管控。
Hive 的子组件 Hive Metastore,在开源的方案中通过 redis 进行缓存加速,而现在可以通过宝兰德BCS 这样的国产中间件对 redis 进行国产化替代。
Hive Metastore 本身的元数据信息在开源方案中存储在 MySQL 和 OracleSQL 中,现在也可以通过适配国产数据库,如 TDSQL、OceanBase,对开源数据库进行替代。基于此,EasyMR 实现真正的国产化,完全自主可控。

EasyMR 深知只有实现关键技术的自主化、国产化,才能真正实现技术创新,攻克“卡脖子”难题。
袋鼠云作为国内领先的数字化基础软件与应用服务商,十分重视强化产品的基础能力和技术能力,在开源技术的基础上,EasyMR 对 Spark、Flink、Trino、Iceberg 等多个大数据核心组件进行了功能及性能增强。具体优化见下图:

仅在2022年袋鼠云技术同学就完成了上百次的 commit,为 Hadoop 生态的技术发展贡献了属于袋鼠云的力量。
赠人玫瑰手有余香,回馈社区的同时袋鼠云实现了对整个 Hadoop 体系核心代码的完全自主掌握,对于 EasyMR 大数据平台迁移、大数据组件维保等做到了100%自主可控。
从2016年数栈V1.0发布开始,到如今的数栈V6.0,数栈已经历经了七年六个大版本的迭代实践。随着对技术能力的不懈探索,数栈内部也沉淀了一些优秀的大数据组件,如流批一体的数据同步集成组件ChunJun,DAG分布式任务调度组件Taier、大数据平台运维组件ChengYing等,这些组件数栈已经全部贡献给了Github,下面是袋鼠云开源的地址,欢迎使用。
Github地址:https://github.com/DTStack

技术无界,创新不止。袋鼠云数栈技术团队连续两年荣获“年度优秀开源技术团队”的称号,ChunJun 也顺利晋级“2022 年中国开源创新大赛”决赛,并荣获“优秀开源项目/社区”奖项。这些鼓励都源于数栈技术团队出众的产品技术能力和自主研发能力。
基于国家对于国产信创的政策要求,以及 CDH 停止服务(EoS),用户没办法再获取售后支持的大背景,各行各业的大数据平台底座需要进行国产化替代的需求越来越强烈。基于此,数栈支持 CDP/CDH 平滑迁移到 EasyMR 的解决方案,大大降低企业迁移成本低。
生产业务不能停,该方案支持双轨运行,即客户的原 CDH 集群和信创的 EasyMR 集群可以同时运行。整个迁移过程操作简单,配置灵活,通过4步即可完成所有的迁移工作。
第一步,进行计算平台和开发套件的替换。
第二步,进行数据迁移。包括历史数据和元数据的迁移,在迁移过程中,EasyMR 支持数据检验,保证在数据迁移过程中的数据一致。
第三步,执行任务迁移。包括采集任务、数据加工任务、任务依赖关系以及分析引擎。
第四步,业务切割。包含集群的切换,及老服务器下线,新服务器上线等动作切换,最终达到 CDP/CDH 平滑迁移到 EasyMR 的目的,并且实现对客户侧的业务无感知。
EasyMR 积累了大量的迁移成功案例,经验丰富,可以保障整个迁移过程安全可靠。
大数据组件每年的版本更新速度比较快,不少企业还停留在 Hadoop2.0 的阶段。许多客户想升级到 Hadoop3.0 版本,体验新的特性和性能优化,但是客户的业务在版本更新中又不能停止,这时应该怎么做?
EasyMR 可实现节点的动态替换,将一个节点先升级到 Hadoop3.0 的节点,在这个节点上印证没有问题之后,再进行剩下节点的逐步替换,这样就真正实现了 Hadoop 的无感知平滑升级。

在介绍完 EasyMR 的具体功能和特性之后,下文将为大家介绍2个 EasyMR 的经典实践应用落地,更深地感受 EasyMR 是如何帮助企业更高效、平滑、安全地实现实现国外进口产品的国产化替代。
某全国性股份制商业银行,为解决分行数据应用建设效率差等问题,数栈帮助该客户实现了 CDH 平滑迁移至 EasyMR,并且为该客户建立了“总行统一调度+分行数据协同共享”的数据应用云平台。

EasyMR 使用 Trino 替换 Impala,解决了客户 Impala 内存过度占用导致节点宕机的问题,提升查询性能,实现了资源动态隔离;并且采用「云平台」的模式,总行+各个分行是平台上的单独租户,底层存储、计算资源共享提升数据下发效率,数据权限隔离保证安全,不用再担心出现分行数据误删除、丢失等安全问题。EasyMR 兼容信创生态体系,平滑迁移至国产化环境,符合金融行业的信创国产化要求。
通过 EasyMR 大数据基础平台的建设,该全国性股份制商业银行实现了成本管理和业务管控的双效提升。
金融行业正逐渐从数字化时代迈向智能化时代,该客户的需求是将 EasyMR 和数栈进行 Saas 化,依托数据中台产品,赋能客户,加快走向智能化时代的步伐。

面对客户需求,数栈 + EasyMR 与云平台的网络架构、服务器、云平台的统一权限管控等各项内容实现全面兼容适配,保证在客户开通权限资源后,依然能够保障 EasyMR 的稳定运行。并且数栈 + EasyMR 实现了「订购—自动化部署—一键扩缩容」等各类操作。
作为大数据基础软件国产化的重要推动者之一,数栈还拥有大量成熟大数据解决方案,可以更好地支持各行业智能化、数字化应用建设。
此外,会上还发布了《数栈产品白皮书》:从数字技术、产品能力、应用实践、服务支持四个方面进行深度研判,针对性克服数字化转型短板,从数据治理、湖仓一体、数据集成、DataOps 等八个方面进行解决方案解读,重点提升客户数据管控能力。此外,本白皮书总结了有效的大数据基础软件建设经验,为各行业企业的数字化转型提供参考和指导。
欢迎大家扫码进行免费获取。

数栈始终坚持自主可控,积极致力于帮助客户打造国产创新的企业级大数据基础软件,帮助客户夯实数据基座,建立从数据获取生产到数据消费利用的全生命周期管理体系,使数据“可见、可用、可管”,洞察数字化机遇,明确转型方向,创造数据新价值。
今后,数栈产品也将更加贴合实际场景,用数智化方式解题,践行“用数据产生价值”的使命。
《数栈产品白皮书》:https://www.dtstack.com/resources/1004?src=szsm
《数据治理行业实践白皮书》下载地址:https://www.dtstack.com/resources/1001?src=szsm
想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=szbky
同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术qun」,交流最新开源技术信息,qun号码:30537511,项目地址:https://github.com/DTStack
我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
有时我需要处理键/值数据。我不喜欢使用数组,因为它们在大小上没有限制(很容易不小心添加超过2个项目,而且您最终需要稍后验证大小)。此外,0和1的索引变成了魔数(MagicNumber),并且在传达含义方面做得很差(“当我说0时,我的意思是head...”)。散列也不合适,因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题,但我很想知道:Ruby标准库是否已经带有这样一个类? 最佳
我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_
无论您是想搭建桌面端、WEB端或者移动端APP应用,HOOPSPlatform组件都可以为您提供弹性的3D集成架构,同时,由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台(桌面/WEB/APP,而且某些客户端是“瘦”客户端)快速、方便地将数据接入到3D应用系统的解决方案,并且当访问数据时,在各个平台上的性能和用户体验保持一致,HOOPSPlatform将帮助您完成。利用HOOPSPlatform,您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品,HOOPSSDK包含的技术有:快速且准确的CAD
有人知道在发布新版本的Ruby和Rails时收到电子邮件的方法吗?他们有邮件列表,RubyonRails有一个推特,但我不想听到那些随之而来的喧嚣,我只想知道什么时候发布新版本,尤其是那些有安全修复的版本。 最佳答案 从therailsblog获取提要.http://weblog.rubyonrails.org/feed/atom.xml 关于ruby-on-rails-如何在发布新的Ruby或Rails版本时收到通知?,我们在StackOverflow上找到一个类似的问题:
本教程将在Unity3D中混合Optitrack与数据手套的数据流,在人体运动的基础上,添加双手手指部分的运动。双手手背的角度仍由Optitrack提供,数据手套提供双手手指的角度。 01 客户端软件分别安装MotiveBody与MotionVenus并校准人体与数据手套。MotiveBodyMotionVenus数据手套使用、校准流程参照:https://gitee.com/foheart_1/foheart-h1-data-summary.git02 数据转发打开MotiveBody软件的Streaming,开始向Unity3D广播数据;MotionVenus中设置->选项选择Unit
文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目,Java开发。基于数据库增量日志解析,提供增量数据订阅&消费。Git地址:https://github.co
我正在尝试在Rails上安装ruby,到目前为止一切都已安装,但是当我尝试使用rakedb:create创建数据库时,我收到一个奇怪的错误:dyld:lazysymbolbindingfailed:Symbolnotfound:_mysql_get_client_infoReferencedfrom:/Library/Ruby/Gems/1.8/gems/mysql2-0.3.11/lib/mysql2/mysql2.bundleExpectedin:flatnamespacedyld:Symbolnotfound:_mysql_get_client_infoReferencedf
文章目录1.开发板选择*用到的资源2.串口通信(个人理解)3.代码分析(注释比较详细)1.主函数2.串口1配置3.串口2配置以及中断函数4.注意问题5.源码链接1.开发板选择我用的是STM32F103RCT6的板子,不过代码大概在F103系列的板子上都可以运行,我试过在野火103的霸道板上也可以,主要看一下串口对应的引脚一不一样就行了,不一样的就更改一下。*用到的资源keil5软件这里用到了两个串口资源,采集数据一个,串口通信一个,板子对应引脚如下:串口1,TX:PA9,RX:PA10串口2,TX:PA2,RX:PA32.串口通信(个人理解)我就从串口采集传感器数据这个过程说一下我自己的理解,
SPI接收数据左移一位问题目录SPI接收数据左移一位问题一、问题描述二、问题分析三、探究原理四、经验总结最近在工作在学习调试SPI的过程中遇到一个问题——接收数据整体向左移了一位(1bit)。SPI数据收发是数据交换,因此接收数据时从第二个字节开始才是有效数据,也就是数据整体向右移一个字节(1byte)。请教前辈之后也没有得到解决,通过在网上查阅前人经验终于解决问题,所以写一个避坑经验总结。实际背景:MCU与一款芯片使用spi通信,MCU作为主机,芯片作为从机。这款芯片采用的是它规定的六线SPI,多了两根线:RDY和INT,这样从机就可以主动请求主机给主机发送数据了。一、问题描述根据从机芯片手