草庐IT

里程碑 | WeDataSphere 一站式开源大数据平台套件全面升级

康月牙 2023-03-28 原文

国家 2035 远景规划提出要加快全面数字化转型的步伐,而“大数据平台”是数字化转型的基础技术之一。对于任何企业来说,建立和维护一个大数据平台都不是一件容易的事情,而建设一个有特色的、完整易用的大数据平台,显然更是一件技术难度极高的事情。

经过七年多的探索和实践,微众银行打造了一套一站式、金融级、全连通、开源开放的大数据平台套件:WeDataSphere。

基础平台由数据交换、数据分发、计算、存储四大层次组成,关注底层数据传输计算存储能力;功能平台由平台工具、数据工具、应用工具三大层次组成,关注用户各类功能工具需求实现。形成了完整的大数据平台技术体系,提供一站式的丰富数据平台组件及功能支撑。

GitHub:https://github.com/WeBankFinTech/WeDataSphere

2019年开源以来,面向社区发布了 9 个开源组件,填补了业界 “开源体系化大数据平台套件”的空白,受到了各行业的广泛欢迎和采用。

沙箱用户超 1,600 个,自建试用企业超 800 家,收到超 80 家企业投入生产的反馈,生产环境支撑的数据量达 400 PB,生产用户超 5,000 ,开源社区成员人数近 7,000 ;涉及金融、互联网、通信、制造、教育等众多行业。其中,计算中间件 Linkis 已进入国际开源基金会 Apache 孵化。

近期WeDataSphere的各大开源组件已经完成了全面升级,从性能、功能、易用性等各方面得到了提升,是个重要的里程碑时刻。那么接下来由小编给大家介绍各大开源组件的最新情况。

01 Apache Linkis(incubating) 计算中间件 

https://github.com/apache/incubator-linkis

02 DataSphereStudio 一站式数据应用开发管理门户 

https://github.com/WeBankFinTech/DataSphereStudio

03 Qualitis 数据质量管理平台 

https://github.com/WeBankFinTech/Qualitis

04 Schedulis 工作流任务调度系统 

https://github.com/WeBankFinTech/Schedulis

05 Exchangis 数据交换平台 

https://github.com/WeBankFinTech/Exchangis

06 Visualis 数据可视化工具 

https://github.com/WeBankFinTech/Visualis

07 Prophecis 一站式机器学习平台 

https://github.com/WeBankFinTech/Prophecis

08 Streamis 流式应用开发管理系统 

https://github.com/WeBankFinTech/Streamis

说明:Scriptis项目已经集成到DSS,可以直接使用


01 Apache Linkis(incubating) 计算中间件

Linkis是一个打通了多个计算存储引擎如:Spark、Flink、Hive、Python和HBase等,对外提供统一REST/WS/JDBC接口,提交执行SQL、Pyspark、HiveQL、Scala等脚本的计算中间件。

本次发布主要支持在无 HDFS 的环境下进行精简化部署(支持部分引擎),方便更轻量化的学习使用和调试;新增对数据迁移工具 Sqoop 引擎的支持;异常处理日志优化;部分安全漏洞组件升级等;修复社区反馈的已知 bug。

新版详情:版本动态 | Apache Linkis(Incubating) 1.1.2 版本发布


02 DataSphereStudio 一站式数据应用开发管理门户

DataSphere Studio(简称 DSS)是微众银行自研的数据应用开发管理集成框架。基于插拔式的集成框架设计,及计算中间件 Linkis ,可轻松接入上层各种数据应用系统,让数据开发变得简洁又易用。

在统一的 UI 下,DataSphere Studio 以工作流式的图形化拖拽开发体验,将满足从数据交换、脱敏清洗、分析挖掘、质量检测、可视化展现、定时调度到数据输出应用等,数据应用开发全流程场景需求。

DSS 通过插拔式的集成框架设计,让用户可以根据需要,简单快速替换 DSS 已集成的各种功能组件,或新增功能组件。

DSS1.1.0 主要特性如下:

  • 已集成 WeDataSphere 已开源的所有生态组件,包括 Apache Linkis1.1.1、Exchangis1.0.0、Schedulis0.7.0、Qualitis0.9.2、Visualis1.0.0、Streamis0.2.0 和 Prophecis0.3.2。
  • 集成了 Apache DolphinScheduler1.3.X。支持将 DSS 工作流一键发布为 DolphinScheduler 工作流,为工作流调度设计并开发了全新的调度中心。
  • 用户体验优化。如支持换肤、顶部导航栏改版、DSS 开发中心改版等。
  • 帮助手册和新手指引。
  • 安装部署优化。进一步简化 DSS&Linkis 全家桶一键安装部署流程,让 DSS 和 Linkis 的安装在半个小时内完成。
  • 支持优雅升级。提供了如何从DSS1.0.1升级到DSS1.1.0,以及DSS0.9如何迁移到DSS1.1.0的详细升级流程。
  • AppConn 架构优化。架构更加简化清晰,文档更加全面细腻,手把手教您如何实现一个新的AppConn,以及添加一个新的工作流节点。
  • 新版详情:【里程碑】| DataSphere Studio 1.1.0 新版本发布


    03 Qualitis 数据质量管理平台

    Qualitis 是微众银行开源的一款数据质量管理系统,用于解决业务系统运行、数据中心建设及数据治理过程中的各种数据质量问题。它提供了一整套统一的流程来定义和检测数据集的质量并及时报告问题。

    本次发布的 0.9.2 版本,与上一版本 Qualitis 0.9.0 版本相比,主要完成了与 DSS 1.1.0 以及 Apache Linkis 1.1.1 的适配,修复了用户在使用过程中反馈的问题,完善了工作流接入的升级安装文档。推荐用户升级或直接使用该版本。

    新版详情:版本动态 | Qualitis 0.9.2 新版本发布


    04 Schedulis 工作流任务调度系统

    Schedulis 是一个基于LinkedIn 的开源项目 Azkaban 开发的工作流任务调度系统。该调度系统具备高性能,高可用(去中心化多调度中心和多执行器)和多租户资源隔离等金融级特性;现已被集成到数据应用开发门户 DataSphere Studio。

    本次发布的 0.7.0 版本,与上个版本 0.6.2 相比,主要完成与DSS 1.1.0 以及Apache Linkis 1.1.1 的适配,修复用户在使用过程中出现的一些问题和优化文档。推荐用户升级到此版本。

    新版详情:版本动态 | Schedulis 0.7.0 新版本发布


    05 Exchangis 数据交换平台

    Exchangis1.0.0是微众银行联合中国电信天翼云和仙翁科技共建的全新数据交换工具,支持异构数据源之间的结构化和非结构化数据传输同步。

    Exchangis1.0.0 还抽象了一套统一的数据源和同步作业定义插件,允许用户快速接入新的数据源,允许用户快速集成对接 Apache Linkis 新的数据同步引擎,用户只需在数据库中简单配置即可在页面中使用新的数据源和数据同步引擎。

    借助于Linkis计算中间件的连接、复用和简化能力,Exchangis天生具备了高并发、高可用、多租户隔离和资源管控的金融级数据同步能力。

    新版详情:版本动态 | Exchangis 1.0.0 版本发布


    06 Visualis 数据可视化工具

    Visualis是一个基于宜信开源项目Davinci开发的数据可视化BI工具。现已集成到一站式数据应用开发门户DataSphere Studio中。Visualis支持拖拽式报表定义、图表联动、钻取、全局筛选、多维分析、实时查询等数据开发探索的分析模式,并提供水印、数据质量校验等金融级增强功能。

    本次发布的1.0.0版本,完成了针对DSS1.1.0和Linkis1.1.1的适配,对接了DSS的结果集可视化分析、工作流报表开发、邮件发送等多个功能,是接入DSS1.0和Linkis1.0的第一个正式版本,与1.0.0-rc1版本相比,新增工作流View节点,完成多个增强特性,修复多个功能缺陷。推荐用户升级到此版本。

    通过Visualis可以制作出多种图形的数据看板,并支持在DSS工作流中通过数据输出节点发送邮件报表。

    新版详情:版本动态 | Visualis 1.0.0 版本发布


    07 Prophecis 一站式机器学习平台

    Prophecis 是微众银行自研的一站式机器学习平台,集成多种开源机器学习框架,具备机器学习计算集群的多租户管理能力,提供生产环境全栈化容器部署与管理服务。

    本次版本更新内容主要为Prophecis MLFlow模块对接DSS 1.1.0 版本,实验模块、MLFlow Appconn、MLSS Appconn均对DSS 1.1.0版本进行了适配。

    新版详情:新版发布 | 一站式机器学习平台 Prophecis 0.3.2


    08 Streamis 流式应用开发管理系统

    Streamis是一个基于开源社区联合共建的流式应用开发管理系统,初期版本由微众银行、天翼云、仙翁科技和萨摩耶云参与共建开发。

    Streamis在框架层面直接接壤DataSphere Studio,同时底层引擎层面又直接对接了Linkis的Flink引擎,可以让用户低成本完成流式应用的开发、调试、发布和生产管理。同时随着Linkis和DataSphereStudio开源版本的发布迭代,对Streamis的功能特性也是持续地优化和增强。

    Streamis 0.2.0版本发布,主要增加了对架构的优化和调整,并提供了一些重要功能特性,为后续版本迭代打下基础。

    新版详情:新版发布 | 流式应用开发管理系统 Streamis 0.2.0

    — END —

    如何成参与社区贡献

    ► 官方文档贡献。发现文档的不足、优化文档,持续更新文档等方式参与社区贡献。通过文档贡献,让开发者熟悉如何提交PR和真正参与到社区的建设。参考攻略:保姆级教程:如何成为Apache Linkis文档贡献者

    ► 代码贡献。我们梳理了社区中简单并且容易入门的的任务,非常适合新人做代码贡献。请查阅新手任务列表:https://github.com/apache/incubator-linkis/issues/1161

    ► 内容贡献:发布WeDataSphere开源组件相关的内容,包括但不限于安装部署教程、使用经验、案例实践等,形式不限,请投稿给小助手。例如:

    ► 社区答疑:积极在社区中进行答疑、分享技术、帮助开发者解决问题等;

    ► 其他:积极参与社区活动、成为社区志愿者、帮助社区宣传、为社区发展提供有效建议等;

    有关里程碑 | WeDataSphere 一站式开源大数据平台套件全面升级的更多相关文章

    1. 世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2

      无论您是想搭建桌面端、WEB端或者移动端APP应用,HOOPSPlatform组件都可以为您提供弹性的3D集成架构,同时,由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台(桌面/WEB/APP,而且某些客户端是“瘦”客户端)快速、方便地将数据接入到3D应用系统的解决方案,并且当访问数据时,在各个平台上的性能和用户体验保持一致,HOOPSPlatform将帮助您完成。利用HOOPSPlatform,您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品,HOOPSSDK包含的技术有:快速且准确的CAD

    2. H2数据库配置及相关使用方式一站式介绍(极为详细并整理官方文档) - 2

      目录H2数据库入门以及实际开发时的使用1.H2数据库的初识1.1H2数据库介绍1.2为什么要使用嵌入式数据库?1.3嵌入式数据库对比1.3.1性能对比1.4技术选型思考2.H2数据库实战2.1H2数据库下载搭建以及部署2.1.1H2数据库的下载2.1.2数据库启动2.1.2.1windows系统可以在bin目录下执行h2.bat2.1.2.2同理可以通过cmd直接使用命令进行启动:2.1.2.3启动后控制台页面:2.1.3spring整合H2数据库2.1.3.1引入依赖文件2.1.4数据库通过file模式实际保存数据的位置2.2H2数据库操作2.2.1Mysql兼容模式2.2.2Mysql模式

    3. ruby-on-rails - 在 ruby​​ 进程之间处理大数据对象 - 2

      如果使用Marshal.dump写入文件,我有一个Ruby散列达到大约10兆字节。gzip压缩后约为500KB。在ruby​​中迭代和改变这个散列是非常快的(几分之一毫秒)。即使复制它也非常快。问题是我需要在RubyonRails进程之间共享此散列中的数据。为了使用Rails缓存(file_store或memcached)执行此操作,我需要先Marshal.dump文件,但这会在序列化文件时产生1000毫秒的延迟,在序列化文件时产生400毫秒的延迟。理想情况下,我希望能够在100毫秒内从每个进程保存和加载此哈希。一个想法是生成一个新的Ruby进程来保存这个散列,该散列为其他进程提供AP

    4. python - 开源 Twitter 克隆(在 Ruby/Python 中) - 2

      关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭6年前。Improvethisquestion是否有任何用Ruby或Python编写的生产就绪的开源Twitter克隆?我对功能丰富的实现更感兴趣,而不仅仅是简单的Twitter消息(例如:API、FBconnect、通知等)谢谢!

    5. Gradle 自动化构建开源工具 - 2

      文章目录写在前面1、下载与安装(windows)1.1、idea中配置gradle2、基础知识(Gradle6.9为例)2.1、Gradle脚本语法2.1.1、dependsOn2.1.2、创建动态任务2.1.3、增加任务行为2.1.4、参数2.1.5、Ant任务2.1.6、方法2.1.7、默认任务2.1.6、依赖任务的不同输出3、java项目中使用3.1、在已有项目中构建gradle3.2、在新建项目时构建gradle(idea)3.3、gradle项目目录结构3.4、build.gradle3.4.1、plugins3.4.2、repositories3.4.3、dependencies3

    6. 企业大数据发展面临问题之存算分离技术思考 - 2

      文章目录概述背景为何要存算分离优势**应用场景**存算分离产品技术流派华为JuiceFSHashDataXSKY概述背景Hadoop一出生就是奔存算一体设计,当时设计思想就是存储不动而计算(code也即是代码程序)动,负责调度Yarn会把计算任务尽量发到要处理数据所在的实例上,这也是与传统集中式存储最大的不同。为何当时Hadoop设计存算一体的耦合?要知道2006年服务器带宽只有100Mb/s~1Gb/s,但是HDD也即是磁盘吞吐量有50MB/s,这样带宽远远不够传输数据,网络瓶颈尤为明显,无奈之举只好把计算任务发到数据所在的位置。众观历史常言道天下分久必合合久必分,随着云计算技术的发展,数据

    7. 大数据之Hadoop数据仓库Hive - 2

      目录:一、简介二、HQL的执行流程三、索引四、索引案例五、Hive常用DDL操作六、Hive常用DML操作七、查询结果插入到表八、更新和删除操作九、查询结果写出到文件系统十、HiveCLI和Beeline命令行的基本使用十一、Hive配置一、简介Hive是一个构建在Hadoop之上的数据仓库,它可以将结构化的数据文件映射成表,并提供类SQL查询功能,用于查询的SQL语句会被转化为MapReduce作业,然后提交到Hadoop上运行。特点:简单、容易上手(提供了类似sql的查询语言hql),使得精通sql但是不了解Java编程的人也能很好地进行大数据分析;灵活性高,可以自定义用户函数(UDF)和

    8. 停车系统源码-基于springboot+uniapp开源项目 - 2

      Iparking停车收费管理系统-可商用介绍Iparking是一款基于springBoot的停车收费管理系统,支持封闭车场和路边车场,支持微信支付宝多种支付渠道,支持多种硬件,涵盖了停车场管理系统的所有基础功能。技术栈Springboot,MybatisPlus,Beetl,Mysql,Redis,RabbitMQ,UniApp功能云端功能序号模块功能描述1系统管理菜单管理配置系统菜单2系统管理组织管理管理组织机构3系统管理角色管理配置系统角色,包含数据权限和功能权限配置4系统管理用户管理管理后台用户5系统管理租户管理多租户管理6系统管理公众号配置租户公众号配置7系统管理操作日志审计日志8系统

    9. ruby-on-rails - 有没有很好的引用(开源)Rails NoSQL应用程序? - 2

      我有兴趣了解使用nosql将如何影响rails应用程序的架构/设计/代码。有人知道使用nosql持久性的开源rails应用程序的一个好例子吗?谢谢 最佳答案 看看这些项目:卡桑德拉用法atDigg。卡桑德拉用法atTwitter。Friendly用法atFetLife(nsfw)。最后,MyNoSQL是一个提供nosql相关信息的好网站。 关于ruby-on-rails-有没有很好的引用(开源)RailsNoSQL应用程序?,我们在StackOverflow上找到一个类似的问题:

    10. ruby - ruby 中的大数组操作非常慢 - 2

      我有以下场景:我需要在一个非常大的集合中找出唯一的ID列表。例如,我有6000个id数组(关注者列表),每个数组的大小范围在1到25000(他们的关注者列表)之间。我想获得所有这些ID数组中的唯一ID列表(关注者的唯一关注者)。完成后,我需要减去另一个ID列表(另一个人的关注者列表)并获得最终计数。最后一组唯一ID增长到大约60,000,000条记录。在ruby​​中,将数组添加到大数组时,它开始变得非常慢,大约几百万。添加到集合中一开始需要0.1秒,然后增长到200万时需要超过4秒(离我需要去的地方不远)。我用java编写了一个测试程序,它在不到一分钟的时间内完成了整个过程。也许我在

    随机推荐