数据中台开源解决方案（一）

梯度科技 2023-09-29 原文

数据中台商业的解决方案有很多，开源框架种类繁多，每一个模块都有很多开源的套件。以查询引擎为例，可以使用的开源工具有MySQL、Redis、Impala、MongoDB、PgSQL等。可以根据实际业务需要，选择合适的开源套件。

可供选择的解决方案太多，重点推荐开源解决方案，框架图如下图所示。企业的数据应用主要有离线计算和实时计算。建议离线计算优先选择Hive和Spark。Spark是基于内存的。实时计算目前主流的选择是Flink框架。

1.数据存储

互联网行业大数据的主流存储框架是基于Hadoop的分布式文件系统HDFS。由于其具有高容错性和适合批处理数据的特点，适合部署在低廉的PC服务器上存储海量的数据，数据存储的性价比较高。

2.离线计算

在HDFS的基础上，Hadoop生态又开发了离线数据仓库计算引擎Hive。Hive 基于MapReduce技术支持分布式批处理计算，同时支持以SQL操作的方式对存储在HDFS上的数据进行「类数据库」的操作、计算和统计分析。Hive 适合海量数据的批处理操作场景，操作简单，容错性和扩展性好，缺点是高延迟、查询和计算都比较慢，因此Hive被广泛应用在离线计算场景中，尤其是对海量数据的批处理操作和分析场景中。

因为基于MapReduce技术涉及磁盘间高频的I/O操作，所以Hive的计算效率较低，时效很长。为了提高计算的效率，Hive社区增加了新的计算引擎，即Spark。与MapReduce相比，Spark的RDD计算引擎基于内存进行计算，计算和查询效率显著提升。

目前，主流的离线计算框架采用Hive和Spark结合的方式。在100 个节点以下时，可以选用Hive作为数据仓库、Spark作为计算引擎。另外，对于海量数据场景（如节点数需要几百个甚至上千个时），Hive的优势是稳定性和容错性好，可以用于处理海量数据的复杂计算。Spark的优势是计算速度快，缺点是容易出现内存泄漏和不足，从而导致计算缓慢或者任务失败。在海量数据场景中，出于稳定的要求，Spark一般用于处理数据仓库上层的查询、计算和分析操作，而底层的操作由Hive完成。重点推荐使用Hive和Spark工具。

3.实时计算

开源的实时计算框架比较多，如Spark、Storm和Flink等。与Storm 相比，Spark的优势是用一个统一的框架和引擎支持批处理、流计算、查询、机器学习等功能。由于Spark的微批处理的设计机制，在处理流数据的时候，效率比Storm要低。整体而言， Spark 体系更加成熟，易用性较好、社区文档和案例更加丰富，如果对于数据延迟要求是秒级，那么 Spark 更容易上手且能满足性能要求。

4.查询引擎

为了提高数据交互性查询的效率，在大数据时代根据不同的业务要求诞生了很多新的查询引擎，常见的查询引擎有HBase、Redis、MongoDB 等。按照大类划分，查询引擎可以分为SQL交互式查询引擎和NoSQL交互式查询引擎。HBase、Redis、MongoDB都属于NoSQL交互式查询引擎。

1）SQL交互式查询引擎

常用的SQL交互式查询引擎有Impala、Presto、ClickHouse、Kylin 等。Impala和Presto基于MPP架构，通过分布式查询引擎提高查询效率。ClickHouse、Kylin是目前主流的联机分析处理OLAP计算和查询引擎。Kylin 通过预计算机制，提前将客户经常查询的维度和指标设计好并进行预处理操作，以数据立方体模型（Cube）形式缓存，以便加快聚合操作和查询的速度，特别适合对海量数据的OLAP场景。由于需要提前将数据预处理好，Kylin需要消耗额外的空间，且无法高效支持随机的计算和查询。

ClickHouse 适合海量数据的大宽表（维度和指标较多的表）的灵活和随机的查询、过滤和聚合计算，写入和查询性能很好，而多表关联操作性能一般，尤其是多个数据量较大的表（即大表）关联的情况。其劣势是不擅长高频的修改和删除操作，在多用户高并发场景中性能一般。

Presto由Facebook开源，支持基于内存的并行计算，支持多个外部数据源和跨数据源的级联查询，在对单表的简单查询和多表关联方面性能较好，擅长进行实时的数据分析。在处理海量数据时，Presto对内存容量要求高，多个大表关联容易出现内存溢出。

Impala由Cloudera推出，是一个SQLon Hadoop的查询工具，也基于内存进行并行计算，目标是提供HDFS、HBase数据源复杂的高性能交互式查询。

2）NoSQL交互式查询引擎

HBase是基于key-value原理的列式查询引擎，适用于频繁进行插入操作且查询字段较多的场景，如统计每分钟每个商品的点击次数、收藏次数、购买次数等。HBase的列式扩展能力较强，理论上硬盘有多大，HBase 的存储能力就有多大。HBase不适用于大量更改（update）操作的场景。HBase的主要缺点是update操作性能较低。

Redis是内存数据库。Redis的原理是基于内存进行计算和查询。Redis 的存储容量与内存容量有关，支持的数据类型比较丰富，有一定的持久化能力，适用于高频 update 操作的场景，读写的速度都非常快。其缺点是内存容量有限，价格较高，一般用于存储非常有价值且需要高频读写的数据。比如，实时统计全站客户累计点击次数、收藏次数、购买次数等用于数据看板（dashboard）的展示。

MongoDB主要以JSON（JavaScript Object Notation）数据串格式存储数据，适用于表结构变化大的海量数据查询和聚合计算的场景，这是其区别于其他数据库的重要特色。比如，构建客户大宽表，客户的有关字段经常发生改变或增删，在这种场景中很适合用MongoDB存储并高效读取客户的单一维度信息或聚合信息。但是其写入操作和多表关联复杂操作性能一般，很少用于复杂的多表关联的计算场景。在实际应用中，一般会综合部署上述NoSQL引擎，满足不同的应用场景。

5.数据采集工具

开源的数据采集工具很多，如Sqoop、DataX、Scrapy、Flume、Logstash和StreamSets等。Sqoop和DataX主要用于采集结构化数据，Flume和Logstash主要用于采集非结构化数据。StreamSets同时支持结构化和非结构化数据的采集。

在结构化数据采集方面，与DataX相比，Sqoop的综合性能更好，社区更活跃，插件更丰富，使用更广泛。Logstash 更轻量，使用更简单，插件丰富，对技术要求不高，运维比较简单。Flume框架更复杂，偏重于数据传输过程中的安全，不会出现丢包的情况，整体配置更复杂，入门难度较高，运维难度更高。StreamSets 通过可视化界面的拖、拽等操作实现数据的采集和传输，支持多种数据源，组件丰富，功能强大，简单易用，且内置监控组件，可以实时监控数据传输情况。

数据中台 xff0c xff0 xff hive hadoop 大数据

有关数据中台开源解决方案（一）的更多相关文章

ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby - 在 jRuby 中使用 'fork' 生成进程的替代方案？ - 2
在MRIRuby中我可以这样做:deftransferinternal_server=self.init_serverpid=forkdointernal_server.runend#Maketheserverprocessrunindependently.Process.detach(pid)internal_client=self.init_client#Dootherstuffwithconnectingtointernal_server...internal_client.post('somedata')ensure#KillserverProcess.kill('KILL',
ruby - Ruby 有 `Pair` 数据类型吗？ - 2
有时我需要处理键/值数据。我不喜欢使用数组，因为它们在大小上没有限制(很容易不小心添加超过2个项目，而且您最终需要稍后验证大小)。此外，0和1的索引变成了魔数(MagicNumber)，并且在传达含义方面做得很差(“当我说0时，我的意思是head...”)。散列也不合适，因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题，但我很想知道:Ruby标准库是否已经带有这样一个类？最佳
ruby - 我如何添加二进制数据来遏制 POST - 2
我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_
世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2
无论您是想搭建桌面端、WEB端或者移动端APP应用，HOOPSPlatform组件都可以为您提供弹性的3D集成架构，同时，由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台（桌面/WEB/APP，而且某些客户端是“瘦”客户端）快速、方便地将数据接入到3D应用系统的解决方案，并且当访问数据时，在各个平台上的性能和用户体验保持一致，HOOPSPlatform将帮助您完成。利用HOOPSPlatform，您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品，HOOPSSDK包含的技术有：快速且准确的CAD
屏幕录制为什么没声音？检查这2项，轻松解决 - 2
相信很多人在录制视频的时候都会遇到各种各样的问题，比如录制的视频没有声音。屏幕录制为什么没声音？今天小编就和大家分享一下如何录制音画同步视频的具体操作方法。如果你有录制的视频没有声音，你可以试试这个方法。一、检查是否打开电脑系统声音相信很多小伙伴在录制视频后会发现录制的视频没有声音，屏幕录制为什么没声音？如果当时没有打开音频录制，则录制好的视频是没有声音的。因此，建议在录制前进行检查。屏幕上没有声音，很可能是因为你的电脑系统的声音被禁止了。您只需打开电脑系统的声音，即可录制音频和图画同步视频。操作方法：步骤1：点击电脑屏幕右下侧的“小喇叭”图案，在上方的选项中，选择“声音”。步骤2：在“声
【高数】用拉格朗日中值定理解决极限问题 - 2
首先回顾一下拉格朗日定理的内容：函数f(x)是在闭区间[a,b]上连续、开区间(a,b)上可导的函数，那么至少存在一个，使得:通过这个表达式我们可以知道，f(x)是函数的主体，a和b可以看作是主体函数f(x)中所取的两个值。那么可以有，也就意味着我们可以用来替换这种替换可以用在求某些多项式差的极限中。方法：外层函数f(x)是一致的，并且h(x)和g(x)是等价无穷小。此时，利用拉格朗日定理，将原式替换为，再进行求解，往往会省去复合函数求极限的很多麻烦。使用要注意：1.要先找到主体函数f(x)，即外层函数必须相同。2.f(x)找到后，复合部分是等价无穷小。3.要满足作差的形式。如果是加
FOHEART H1数据手套驱动Optitrack光学动捕双手运动(Unity3D) - 2
本教程将在Unity3D中混合Optitrack与数据手套的数据流，在人体运动的基础上，添加双手手指部分的运动。双手手背的角度仍由Optitrack提供，数据手套提供双手手指的角度。 01 客户端软件分别安装MotiveBody与MotionVenus并校准人体与数据手套。MotiveBodyMotionVenus数据手套使用、校准流程参照：https://gitee.com/foheart_1/foheart-h1-data-summary.git02 数据转发打开MotiveBody软件的Streaming，开始向Unity3D广播数据；MotionVenus中设置->选项选择Unit
使用canal同步MySQL数据到ES - 2
文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目，Java开发。基于数据库增量日志解析，提供增量数据订阅&消费。Git地址：https://github.co
ruby-on-rails - 创建 ruby 数据库时惰性符号绑定(bind)失败 - 2
我正在尝试在Rails上安装ruby，到目前为止一切都已安装，但是当我尝试使用rakedb:create创建数据库时，我收到一个奇怪的错误:dyld:lazysymbolbindingfailed:Symbolnotfound:_mysql_get_client_infoReferencedfrom:/Library/Ruby/Gems/1.8/gems/mysql2-0.3.11/lib/mysql2/mysql2.bundleExpectedin:flatnamespacedyld:Symbolnotfound:_mysql_get_client_infoReferencedf

数据中台开源解决方案（一）

有关数据中台开源解决方案（一）的更多相关文章

随机推荐