草庐IT

12款开源数据资产(元数据)管理平台选型分析(二)

DawsonSally 2023-08-16 原文

当ChatGPT一月新增一亿用户时,人们无限感叹于AI的神奇力量,似乎宇宙的尽头就是AI。然而,只有深入研究AI或者从事AI相关工作的人,才深有体会的事,那就是每一个牛鼻的AI模型背后都有一坨又一坨一言难尽的数据。

随着数据即土地、劳动力、资本、技术之后,成为第五要素,随着数字化及数字化转型在全球如火如荼的开展,随着数字孪生及元宇宙在全世界范围广泛兴起,越来越多的企业开始采用人工智能、机器学习和大数据分析去挖掘数据的价值。然而,当企业深入推进数据驱动价值的进程时,他们意识到,要开始实现数字化及数字化转型,实现数据驱动业务,之前出现过得一切信息化技术,以及之后可能出现的一切信息技术,都无法提供神奇的解决方案,可以在一夜之间改变企业的一切。事实上,技术只是达到目标的手段,唯有对组织的文化、技术架构和运营模式进行根本性的、长期性的持续变革,才有可能在可见的未来实现想要的目标。

尽管如此,在众多信息技术的背后,需要一个关键组件,那就是数据目录(数据资产管理平台、元数据平台)。它将企业的数据组织在一个地方,并允许企业使用元数据对其进行标记,让更多的团队和人员可以更有效地发现和管理数据。

12款开源数据资产(元数据)管理平台选型分析(一)中,我们讨论了4款开源数据资产管理平台。本文作为该系列的第二篇文章,将继续分析Open metadata、Open Data Discovery、Magda、CKAN 4款开源数据资产管理平台。

Open Metadata

开源地址:https://github.com/open-metadata/OpenMetadata 1.9K star
OpenMetadata是元数据的开放标准,为端到端元数据管理解决方案提供了基础能力。提供数据发现、数据治理、数据协同、数据质量和可观测性的所有必要组件。

与Open Data Discover类似,其UI非常美观,其操作和使用逻辑,也符合业务人员的习惯。

Open Metadata的优点:

  • 提供在线体验Demo环境,有助于推广拉新
  • UI界面美观漂亮,界面操作逻辑符合国人使用习惯
  • 项目年轻,能够在已有的众多数据资产项目中吸取经验
  • 集成了数据质量模块
  • 支持开放数据标准,感觉也没啥用,国内玩不转
  • 基于数据可观测的新理念设计

Open Metadata的不足:

  • 项目处于起步阶段,国人参与不多
  • 与Open Data Discovery的区分度不是特别大
  • 产品还在快速开发中
  • 中文资料少的可怜

相关介绍:https://sandbox.open-metadata.org/ 百闻不如一见,百见不如一干。

选型建议:项目处于早期,国内生态还未起来。有尝新意识和乐于折腾精神的人,可以去跟踪、研究。生产环境搭建使用,需要做好前、后端问题,都去深挖源码的准备。

商用版本:collate(https://www.getcollate.io/)是Open Metadata的SaaS版本。

Open Data Discovery


开源地址:https://github.com/opendatadiscovery/odd-platform 692 star

Open Data Discover是一个开源的数据发现和可观测性平台。它旨在通过使数据更易于发现、管理、可观察、可靠和安全,帮助数据驱动企业实现数据民主化。由于ODD支持开放数据标准,因此数据团队能够在各种数据工具之间进行更高效的数据交换。

说实在,平台的UI确实非常漂亮。它的摄取是基于规范的。但是,该平台正在开发中,因此一些功能仍在开发中。

Open Data Discovery的优点:

  • 提供在线体验Demo环境,有助于推广拉新
  • UI界面美观漂亮,界面操作逻辑符合国人使用习惯
  • 项目年轻,能够在已有的众多数据资产项目中吸取经验
  • 集成了数据质量模块
  • Datahub有的一些优秀功能都做了规划
  • 支持开放数据标准,感觉也没啥用,国内玩不转
  • 提供了调度工作流告警接口
  • 基于数据可观测的新理念设计
  • ML是第一等公民,这个是对赌未来的AI发展预期

Open Data Discovery的不足:

  • 项目处于起步阶段,社区还不太活跃
  • 与Datahub大量功能重叠
  • 中文资料少的可怜
  • 产品的定位?

相关介绍:https://demo.oddp.io/ 百闻不如一见,百见不如一干。

选型建议:项目处于早期,国内生态还未起来。有尝新意识和乐于折腾精神的人,可以去跟踪、研究。生产环境搭建使用,需要做好前、后端问题,都去深挖源码的准备。

Magda


开源地址:https://github.com/magda-io/magda 408 star
Magda是一个数据目录系统,提供数据编目、增强、搜索、跟踪和排序等功能。支持内部、外部数据源,支持大数据及小数据处理,支持通过文件、数据库或API的方式对外提供数据资产服务。

目标用户:数据技术人员,例如数据分析师、数据科学家和数据工程师。
价值目标:为数据技术人员,提供历史数据版本管理、重复数据检测等辅助功能,提高数据查询、管理的效率及质量。

Magda的优点:

  • 轻量、简单的数据目录管理平台
  • 支持数据预览
  • 功能聚焦,独立部署
  • 界面朴素简洁
  • 支持地图数据

Magda的不足:

  • 功能单一,与下面的CKAN一样,定位于数据编目,数据展示及共享
  • 海量数据传输,性能有问题
  • 不支持现代大数据同步、集成
  • 功能相对单一

相关介绍:https://demo.dev.magda.io/ 百闻不如一见,百见不如一试。

选型建议:现在的数据中台、数据资产平台都会包含类似的数据门户,Magda的功能会被集成,企业基本上比较少的场景会单独使用。

CKAN

开源地址:https://github.com/ckan/ckan 3.7K star
CKAN是世界领先的开源数据门户平台,用于制作开放数据网站的工具。CKAN使发布、共享和处理数据变得容易。这是一个数据管理系统,它为编目、存储和访问数据集提供了强大的平台,具有丰富的前端、完整的API(用于数据和目录)、可视化工具等。

上面的描述,是直接百度翻译CKAN github主页的描述。用大白话说,CKAN就是一个工具,可以帮助您把个人或者企业的数据集通过网站的方式展示出去。其他人可以浏览、检索、预览、编目、下载。CKAN非常适合国家、地方政府、研究机构、学校和其他组织用于开放数据。

CKAN的优点:

  • Python主要开发语言,上手入门似乎不是问题哈
  • 历史悠久,有大量的政府、研究组织用来开放公开数据
  • 使用简单、独立部署
  • 功能聚焦,中小规模数据编目、开发、预览及下载

CKAN的不足:

  • 聚焦于数据门户,即编目组织数据、提供数据预览及下载。
  • 海量数据传输,性能有问题
  • 不支持现代大数据同步、集成
  • 功能相对单一

相关介绍:https://blog.csdn.net/iCloudEnd/article/details/125676123

选型建议:现在的数据中台、数据资产平台都会包含类似的数据门户,CKAN的功能会被集成,企业基本上比较少的场景会单独使用。政府、学校等机构有不少应用场景。

小结

本文介绍的4款开源数据资产管理平台中,Open Data Discovery与Open Metadata功能相近,定位也相同,发展路径和发展趋势也大同小异同,他们的界面美观性非常不错、功能丰富程度很有想象力,未来可期。有研发实力的组织和团队可以尝鲜试用,持续跟进。CKAN和Magda功能相近,定位相似,都是聚焦于数据资产管理的最后一公里,将数据编目好、让非数据技术人员,快速的检索、查找、预览及下载数据,如果没有复杂的数据加工、集成、处理流程,只是共享一些质量较好的、中小规模的数据,可以考虑CKAN和Magda。

有关12款开源数据资产(元数据)管理平台选型分析(二)的更多相关文章

  1. ruby - i18n Assets 管理/翻译 UI - 2

    我正在使用i18n从头开始​​构建一个多语言网络应用程序,虽然我自己可以处理一大堆yml文件,但我说的语言(非常)有限,最终我想寻求外部帮助帮助。我想知道这里是否有人在使用UI插件/gem(与django上的django-rosetta不同)来处理多个翻译器,其中一些翻译器不愿意或无法处理存储库中的100多个文件,处理语言数据。谢谢&问候,安德拉斯(如果您已经在ruby​​onrails-talk上遇到了这个问题,我们深表歉意) 最佳答案 有一个rails3branchofthetolkgem在github上。您可以通过在Gemfi

  2. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  3. ruby - Ruby 有 `Pair` 数据类型吗? - 2

    有时我需要处理键/值数据。我不喜欢使用数组,因为它们在大小上没有限制(很容易不小心添加超过2个项目,而且您最终需要稍后验证大小)。此外,0和1的索引变成了魔数(MagicNumber),并且在传达含义方面做得很差(“当我说0时,我的意思是head...”)。散列也不合适,因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题,但我很想知道:Ruby标准库是否已经带有这样一个类? 最佳

  4. ruby-on-rails - 获取 inf-ruby 以使用 ruby​​ 版本管理器 (rvm) - 2

    我安装了ruby​​版本管理器,并将RVM安装的ruby​​实现设置为默认值,这样'哪个ruby'显示'~/.rvm/ruby-1.8.6-p383/bin/ruby'但是当我在emacs中打开inf-ruby缓冲区时,它使用安装在/usr/bin中的ruby​​。有没有办法让emacs像shell一样尊重ruby​​的路径?谢谢! 最佳答案 我创建了一个emacs扩展来将rvm集成到emacs中。如果您有兴趣,可以在这里获取:http://github.com/senny/rvm.el

  5. ruby-on-rails - 事件管理员日期过滤器日期格式自定义 - 2

    是否有简单的方法来更改默认ISO格式(yyyy-mm-dd)的ActiveAdmin日期过滤器显示格式? 最佳答案 您可以像这样为日期选择器提供额外的选项,而不是覆盖js:=f.input:my_date,as::datepicker,datepicker_options:{dateFormat:"mm/dd/yy"} 关于ruby-on-rails-事件管理员日期过滤器日期格式自定义,我们在StackOverflow上找到一个类似的问题: https://s

  6. ruby - 我如何添加二进制数据来遏制 POST - 2

    我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_

  7. 世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2

    无论您是想搭建桌面端、WEB端或者移动端APP应用,HOOPSPlatform组件都可以为您提供弹性的3D集成架构,同时,由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台(桌面/WEB/APP,而且某些客户端是“瘦”客户端)快速、方便地将数据接入到3D应用系统的解决方案,并且当访问数据时,在各个平台上的性能和用户体验保持一致,HOOPSPlatform将帮助您完成。利用HOOPSPlatform,您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品,HOOPSSDK包含的技术有:快速且准确的CAD

  8. FOHEART H1数据手套驱动Optitrack光学动捕双手运动(Unity3D) - 2

    本教程将在Unity3D中混合Optitrack与数据手套的数据流,在人体运动的基础上,添加双手手指部分的运动。双手手背的角度仍由Optitrack提供,数据手套提供双手手指的角度。 01  客户端软件分别安装MotiveBody与MotionVenus并校准人体与数据手套。MotiveBodyMotionVenus数据手套使用、校准流程参照:https://gitee.com/foheart_1/foheart-h1-data-summary.git02  数据转发打开MotiveBody软件的Streaming,开始向Unity3D广播数据;MotionVenus中设置->选项选择Unit

  9. 使用canal同步MySQL数据到ES - 2

    文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目,Java开发。基于数据库增量日志解析,提供增量数据订阅&消费。Git地址:https://github.co

  10. ruby-on-rails - 创建 ruby​​ 数据库时惰性符号绑定(bind)失败 - 2

    我正在尝试在Rails上安装ruby​​,到目前为止一切都已安装,但是当我尝试使用rakedb:create创建数据库时,我收到一个奇怪的错误:dyld:lazysymbolbindingfailed:Symbolnotfound:_mysql_get_client_infoReferencedfrom:/Library/Ruby/Gems/1.8/gems/mysql2-0.3.11/lib/mysql2/mysql2.bundleExpectedin:flatnamespacedyld:Symbolnotfound:_mysql_get_client_infoReferencedf

随机推荐