GreenPlum小结

骚戴 2023-12-07 原文

什么是GreenPlum？

GreenPlum是业界最快最高性价比的关系型分布式数据库,它在开源的PostgreSQL的基础上采用MPP架构（Massive Parallel Processing，海量并行处理）,具有强大的大规模数据分析任务处理能力。

GreenPlum作为大数据融合存储平台中众多数据库之一，与其他数据库系统和文件系统一起，为OceanMind提供完整的OceanStorage大数据融合存储解决方案。

GreenPlum的特点

数据的强一致性：GreenPlum数据库支持分布式事务，支持ACID，保证数据库中数据的强一致性。

标准SQL接口，比MapReduce接入更方便

完整的分布式事务能力，确保强数据一致性

近乎线性的在线扩展能力

高并发数据加载技术

高灵活的行、列以及混合存储及压缩技术

高可用技术方案

丰富的生态系统，便捷对接hadoop等

良好的线性扩展能力：GreenPlum数据库采用MPP架构，其基本特征是有多台SMP（Symmetric Multi-Processor，对称多处理器）服务器通过节点互联网络连接而成，是一种Share Nothing（完全无共享）结构，因而扩展能力最强，理论上可以无限扩展。目前的技术可以实现512个节点互联，包含数千个CPU。借助MPP，Greenplum在大型数据集上执行复杂SQL分析的速度比很多解决方案都要快。Greenplum也带来了其它开源方案中没有的数据管理质量特性、升级和扩展能力。同时Greenplum也降低了大规模实时数据分析的门槛，相比于 Map-Reduce，SQL语法简单，功能强大，易上手，使用和开发成本低，易于对接其他第三方数据分析工具。

GreenPlum数据库 VS传统数据库

使用传统数据库时，我们经常会通过分库分表的方式将数据打散到多个数据库实例中。

其缺点在于可能会出现不平均的情况：数据在后端被打散成许多数据分片，但是有些分片的数据量很大，热度很高，有些分片相对来说热度较低。当进行数据统计或分析时，一部分用户数据处理速度慢，一部分用户数据处理速度快，使得许多用户的体验下降。

GreenPlum数据库采用分而治之的方法，将数据非常均衡的分布在所有节点上。而且当服务器数量不够或者计算能力不够的时候，可以在线横向扩展，此时数据库会重新做二次分片，也就是表数据需要重新分布，在保证强大处理能力的同时也时刻保持用户性能的均衡，提升用户体验。

GreenPlum分析

Greenplum是一个关系型数据库，是由数个独立的数据服务组合成的逻辑数据库。与oracle RAC的shared-Everything架构不同，greenplum采用shared-Nothing（MPP）架构，整个集群由多个数据节点（Segment Host）和控制节点（Master Host）组成。在典型的shared-Nothing中，每个节点上所有的资源的cpu、内存、磁盘都是独立的，每个节点都只有全部数据的一部分，也只能使用本节点的数据资源，节点之间的信息交互都是通过节点高速互联网络实现，其主要的优点是大规模的并行处理能力。

在Greenplum中，需要存储的数据在进入到数据时，将先进行数据分布的处理工作，将一个表中的数据平均分布到每个节点上，并为每个表指定一个分布列（distribute column）,之后便根据hash来分布数据，基于shared-Nothing的原则，Greenplum这样处理可以充分发挥每个节点处IO的处理能力。Greenplum对标准SQL的支持非常完善。一个SQL执行后，经过Master节点会进行执行计划的拆分，下发到下面的n个节点中，并行处理。再到Master节点进行汇总。

大规模数据存储

GreenPlum数据库通过将数据规律地分布到多个节点上来实现大规模数据的存储，支持50PB级海量数据的存储和处理。

Greenplum数据库通过将数据分布到多个节点上来实现规模数据的存储。数据库的瓶颈经常发生在I/O方面，数据库的诸多性能问题最终总能归罪到I/O身上，久而久之，IO瓶颈成为了数据库性能的永恒的话题。

Greenplum采用分而治之的办法，将数据规律的分布到节点上，充分利用Segment主机的IO能力，以此让系统达到最大的IO能力（主要是带宽）。

在Greenplum中每个表都是分布在所有节点上的。Master节点首先通过对表的某个或多个列进行hash运算，然后根据hash结果将表的数据分布到Segment节点中。整个过程中Master节点不存放任何用户数据，只是对客户端进行访问控制和存储表分布逻辑的元数据。

Greenplum提供称为“多态存储”的灵活存储方式。多态存储可以根据数据热度或者访问模式的不同而使用不同的存储方式。一张表的不同数据可以使用不同的物理存储方式。支持的存储方式包含：

行存储：行存储是传统数据库常用的存储方式，特点是访问比较快，多列更新比较容易。行存储比较适合OLTP业务，适合频繁的更新或访问大部分字段的场景。Greenplum作为一款HTAP数据库，做了很多对OLTP场景的优化，在这种场景下，可以选用行存储。

列存储：列存储按列保存，不同列的数据存储在不同的地方（通常是不同文件中）。适合一次只访问宽表中某几个字段的情况。列存储的另外一个优势是压缩比高。列存储更适合压缩，查询列子集时速度快，适用于分析型场景。不同列可以使用不同压缩方式：gzip(1-9)，quicktz，delta，RLE，zstd

外部表：数据保存在其他系统中例如HDFS，数据库只保留元数据信息。外部表是PostgreSQL的优势之一，Greenplum也继承了这一优势。历史数据和不常访问的数据存储在HDFS或者其他外部系统中。可以无缝查询所有数据。支持Text，CSV，Binary，Avro，Parquet，ORC格式。

并行数据加载

并行加载技术充分利用分布式计算和分布式存储的优势，保证发挥出每一块Disk的I/O资源

并行加载比串行加载，速度提高40-50倍以上，减少ETL窗口时间

增加Segment和ETL Server，并行加载速度呈线性增长

主流的系统架构

主流的系统架构主要有三类：对称多处理结构（SMP），非一致存储访问结构（NUMA）和海量并行处理架构（MPP）。

SMP

较为典型的包括Oracle、MySQL等

特点

存储，包括CPU、内存和IO都是共享的。在一台机器就能支撑起整个网站的Web时代，SMP架构是非常流行的，足以支撑前端业务。

不足

扩展能力有限。随着业务的扩大，数据量的增长，在业务场景上就有了很大的限制。

NUMA

特点

拥有多个CPU模块，每个模块由多个CPU组成，有独立的本地内存；节点之间通过互联模块进行连接和信息交互，较好解决SMP系统的扩展问题。

不足

互联模块访问效率和本地内存访问不在一个效率层级，系统性能无法随着CPU数线性增加。

MPP

例如Greenplum的架构

特点

MPP是采用SMP组成的多个服务器，多个服务器共同完成任务。在硬件使用上可以发挥SMP架构的优势，多节点并行处理时，内存、CPU、网络、IO、磁盘均不共享，即Share-Nothing架构，每个节点只访问本地内存和存储，节点信息交互和节点本身是并行处理的。所有数据节点角色一样，可以提升并行计算能力。

Share Nothing节点之间数据不共享，只有通过网络连接实现的协同，每个节点有独立的存储和内存。

数据根据某种规则(如Hash)散布到各个节点

计算任务也是会发布到各个节点并行执行，后再将结果聚合到整体返回

用户使用时会看做整体

不足

MPP架构也存在一些不足，如果多台服务器在进行并行处理时，如果有一台服务器出现部分性能下降，会影响到整个MPP集群的性能，即木桶的短板效应。MPP架构集群规模不能过大，不能像Hadoop那样，几千个集群同时运行某个查询逻辑。此外，并发度不能过高。MPP架构正常情况下都是进行两阶段事务提交的，需要有一个事务汇总和底层事务查询的过程，如果并发过高，资源损耗会过大，会影响到整体系统的响应。

不同的系统架构有其擅长的应用场景，很难说某个架构更好，在其擅长的应用场景下，都可以发挥其优势。

Greenplum架构

GreenPlum数据库是典型的Master/Slave架构。在Greenplum集群中，存在一个Master节点和多个Segment节点。Master实例是GreenPlum数据库服务端，服务端通过端口监听客户端连接。Segment由Master分配，管理一部分数据存储进程，每个Segment都采用独立端口监听。Master实例协调所有数据库实例，分布式请求Segment并且合并从Segment返回的结果。Greenplum数据库是由Master Server、Segment Server和Interconnect三部分组成，Master Server和Segment Server的互联使用过Interconnect。

图中的架构可以被拆解为三部分来看，第一部分是上面的Master节点，第二部分是中间的高速交互网络，第三部分是下面的Segment 节点，是存储生产数据的地方，会利用多个不同的机器，将数据均匀分布在上面。例如图中使用了5台机器，数据会被均匀分布在这5台机器上，充分利用MPP架构的优势，5台机器同时运算，从而提高查询效率。

Master 节点：是整个系统的控制中心和对外的服务接入点，它负责接收用户SQL请求，将SQL生成查询计划并进行并行处理优化，然后将查询计划分配到所有的Segment节点并进行处理，协调组织各个Segment节点按照查询计划一步一步地进行并行处理，最后获取到Segment的计算结果，再返回给客户端。从用户的角度看Greenplum集群，看到的只是Master节点，无需关心集群内部的机制，所有的并行处理都是在Master控制下自动完成的。Master节点一般只有一个或二个。

Segment节点: 是Greenplum执行并行任务的并行计算节点，它接收Master的指令进行MPP并行计算，因此所有Segment节点的计算性总和就是整个集群的性能，通过增加Segment节点，可以线性化得增加集群的处理性能和存储容量，Segment节点可以是1~10000个节点。外部数据在加到Segment时，采用并行数据流进行加载，直接加载到Segment节点，这项独特的技术是Greenplum的专有技术，保证数据在最短时间内加载到数据库中。

Interconnect: 是Master节点与Segment节点、Segment节点与Segment节点之间进行数据传输的组件，它基于千兆交换机或者万兆交换机实现数据再节点之间的高速传输。

Greenplum适用场景？

Greenplum虽然是关系型数据库产品，它的特点主要就是查询速度快，数据装载速度快，批量DML处理快。而且性能可以随着硬件的添加，呈线性增加，拥有非常良好的可扩展性。因此，它主要适用于面向分析的应用。比如构建企业级ODS/EDW，或者数据集市等等。

Greenplum常用指令

Greenplum常用指令好文参考：https://blog.csdn.net/m0_51197424/article/details/123524159

官方文档：http://docs-cn.greenplum.org/v6/admin_guide/intro/about_loading.html

Greenplum小结

本次部署Greenplum集群比较简单，没有什么问题，但是对于Greenplum这个技术非常陌生，所以大概了解了一下Greenplum的相关知识，并且根据自己的需求做对应的笔记，同样也在大数据平台上测试了Greenplum和mysql的批量同步，发现测试没有问题，同时也熟悉了一下Greenplum的常用命令，发现Greenplum和hive的命令都和sql语句很像，这就意味着更加容易上手，毕竟会mysql的比会java的人更多。

小结 GreenPlum xff0c xff0 xff 数据库大数据 hadoop

有关GreenPlum小结的更多相关文章

高等数学重积分知识点笔记小结 - 2
一：二重积分1：二重积分的概念与性质：（1）首先知道什么叫曲顶柱体。（这里不多讲，不会百度）。（2）定义：设f(x,y)是有界闭区域D上的有界函数，将闭区域D任意分成n个小闭区域oi，在每个小区域上取一点f(ai,bi),做乘积f(ai,bi)oi,并作和。如果当各个闭区域的直径中的最大值max趋近于0时，这和的极限总存在，且与闭区域D的分法及点f(ai,bi)无关，那么称此极限为函数f(x,y)在闭区域D上的二重积分。（3）二重积分的六条重要性质：性质一：设a和b为常数，则*******性质二：如果闭区间D被有限条曲线分为有限个部分闭区间，那么在D上的二重积分等于在各部分闭区间上的二重积分
小结：云架构中的IAAS层体系 - 2
计算、网络、存储等资源常被称为“基础设施（Infrastructure）”，管理这些资源的云平台往往被称为“基础设施服务平台”，也就是IaaS（InfrastructureasaService，基础设施即服务）平台。IaaS是虚拟化技术的一种延伸，以自动化的方式解决虚拟化技术遗留的三大灵活性的问题。IaaS实现了时间灵活性、空间灵活性和操作灵活性，通过调度器动态地管理计算、网络、存储等资源。物理资源层：IT基础设施硬件，包括服务器、存储设备、网络交换机、物理防火墙、VPN网关、路由器等物理设备。虚拟化资源层：将分布在不同物理设备上的基础设施资源进行统一虚拟化，让上层的每个应用都认为自己是在独
我的IC秋招小结 - 2
背景介绍2022年，不知道是不是未来十年最好的一年，不过应该是过去十年最差的一年。听完任总的“寒气论”和字节梁总的“去肥增瘦”理论后，每个2023的应届生应该都能感受到这刺骨的寒意。我的秋招经历开始较早，6月陆续开始投递各公司的提前批，7-8月份为面试高峰期，9月陆续收到各家的offer。文章的后面我会大概回忆各面试的问题，梳理校招时面试官关心的共性问题，仅供大家参考，准备后续的秋招笔试面试。本文整理的一些知识点后续会慢慢在自己的博客更新（给自己挖了一波大坑），希望后面慢慢填上；最近停更了比较久，一方面是忙于秋招，另一方面也在搭建自己的博客。欢迎大家来我的新博客做客：大卫和小王的博客园以后CS
关于结构体初始化的自我小结 - 2
前段时间在一个项目中使用到结构体数组来存储产品不同型号的参数，使程序通用化，便于测试和快速生产。由于之前很少使用结构体数组，在初始化时遇到了一点小阻碍，于是便想到对于结构体和其数组的初始化操作做一个小总结：结构体结构体初始化其实有多种方式，以一个经典模板为例：#includestructStudent{ char*name; intage; floatscore;}stu={"小王",18,80.5};intmain(){ printf("%s%d%.2f\r\n",stu.name,stu.age,stu.score); return0;}输出如下：也可以部分初始化：#includest
特性分析 | GreenPlum 的并行查询优化策略详解 - 2
作者：卢文双资深数据库内核研发本文首发于2016-11-2109:43:07架构GreenPlum采用ShareNothing的架构，良好的发挥了廉价PC的作用。自此I/O不在是DW(datawarehouse)的瓶颈，相反网络的压力会大很多。但是GreenPlum的查询优化策略能够避免尽量少的网络交换。对于初次接触GreenPlum的人来说，肯定耳目一新。查询优化器GreenPlum的master节点负责SQL解析和执行计划的生成，具体来说，查询优化器会将SQL解析成每个节点（segments）要执行的物理执行计划。GreenPlum采用的是基于成本的优化策略：如果有多条执行路径，会评估执行
c++ - 返回小结构的虚函数 - 返回值与输出参数？ - 2
我在热点代码中有一个虚函数需要返回一个结构作为结果。我有这两个选择:virtualVec4generateVec()const=0;//returnvaluevirtualvoidgenerateVec(Vec4&output)const=0;//outputparameter我的问题是，这些函数的性能通常有什么区别吗？我假设第二个更快，因为它不涉及复制堆栈上的数据。但是，第一个通常使用起来更方便。如果第一个仍然稍微慢一点，这是否可以测量？我是不是太着迷了:)我要强调的是，这个函数每秒将被调用数百万次，而且结构Vec4的大小很小-16字节。最佳答案
hadoop - Greenplum报错-输入路径不存在 - 2
我们有小型gpdb集群。当我尝试使用来自gpdbmaster的'gphdfs'协议(protocol)读取外部表时。环境产品版本关键Greenplum(GPDB)4.3.8.2操作系统Centos6.5获取错误:prod=#select*fromext_table;ERROR:externaltablegphdfsprotocolcommandendedwitherror.16/10/0514:42:51WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-jav
macos - 在 OSX 上安装 Chorus 的 GreenPlum - 2
我正在尝试在OSX上安装Chorus。所以我需要按照描述安装GreenPlumhere.文档说我必须下载GreenPLum数据库并提取greenplum-db-4.2.5.0.tar.gztar文件。所以我去了专门的网站[Pivotal][2]。该文件提供了一些.bin文件，但是当我执行它时，我收到消息InstallerwillonlyinstallonRedHat/CentOSx86_64。该文件的执行假设它提供了上述的tar文件。所以我推断我必须得到一些OSX专用文件，但是Pivotal文档说应该提取tar文件(仅在开发模式下)。也许我运行了一些错误的命令。有人可以帮忙吗？
hadoop - 从 hdfs 到 GreenPlum 的 Sqoop 导出不起作用 - 2
我正在尝试将数据从hdfs位置导出到Greenplum用户定义的模式(不是默认模式)。尝试使用SqoopEval来检查连接。sqoopeval--connect"jdbc:postgresql://sample.com:5432/sampledb"--usernamesample_user--passwordxxxx--query"SELECT*FROMsample_db.sample_tableLIMIT3"结果:工作正常尝试使用--schema选项/usr/bin/sqoopexport--connect"jdbc:postgresql://sample.com:5432/samp
hadoop - 如何将HAWQ中的数据推送到GREENPLUM中？ - 2
我有一个反复无常的客户，他想在经过一些预处理后将数据从HAWQ推送到GREENPLUM。有什么办法吗？如果没有，是否可以在greenplum中创建一个外部表，从运行HAWQ的HDFS中读取它？我们将不胜感激。最佳答案您可以做的最简单的事情-使用外部可写表将数据从HAWQ推送到HDFS，然后使用gphdfs协议(protocol)使用外部可读表从Greenplum读取数据。在我看来，这将是最快的选择。另一种选择是将数据存储在HDFS上的gzip压缩CSV文件中，并直接从HAWQ中使用它们。这样，当您在Greenplum中需要这些数