scala - 用于 TB 级结构化数据的 Greenplum、Pivotal HD + Spark 或 HAWQ？

coder 2024-01-06 原文

我在 Greenplum 数据库中有数 TB 的结构化数据。我需要对我的数据运行本质上是 MapReduce 作业。

我发现自己至少重新实现了 MapReduce 的功能，以便这些数据适合内存(以流方式)。

然后我决定到别处寻找更完整的解决方案。

我查看了 Pivotal HD + Spark，因为我使用的是 Scala，而 Spark 基准测试是一个令人惊叹的因素。但我相信这背后的数据存储 HDFS 的效率将低于 Greenplum。 (注意“我相信”。我很高兴知道我错了，但请提供一些证据。)

因此，为了与 Greenplum 存储层保持一致，我查看了 Pivotal 的 HAWQ，它基本上是在 Greenplum 上使用 SQL 的 Hadoop。

这种方法丢失了很多功能。主要是使用Spark。

还是只使用内置的 Greenplum 功能更好？

所以我正处于不知道哪种方式最好的十字路口。我想处理适合关系数据库模型的 TB 级数据，并且我想要 Spark 和 MapReduce 的好处。

我是不是要求太多了？

最佳答案

在发布我的答案之前，我想根据我的理解重新表述问题(以确保我正确理解问题)如下:

您拥有 TB 的数据，非常适合关系数据库模型，并且您希望大部分时间使用 SQL 查询数据(我认为这就是您将其放入 Greenplum DB 的原因)，但有时您希望使用 Spark 和MapReduce 访问数据是因为它们的灵 active 。

如果我的理解是正确的，我强烈建议您尝试使用 HAWQ。 HAWQ 的某些功能使其完全符合您的要求(注意:我可能有偏见，因为我是 HAWQ 的开发人员)。

首先，HAWQ 是一个 SQL on Hadoop 数据库，这意味着它使用 HDFS 作为其数据存储。 HAWQ 不与 Greenplum DB 存储层保持一致。

其次，很难反驳“HDFS 的效率将低于 Greenplum”。但性能差异并不像您想象的那么显着。我们对访问 HDFS 数据做了一些优化。一个例子是，如果我们发现一个数据 block 存储在本地，我们会直接从磁盘读取它，而不是通过正常的 RPC 调用。

第三，HAWQ 有一个名为 HAWQ InputFormat for MapReduce 的特性(Greenplum DB 没有)。使用该功能，您可以编写 Spark 和 MapReduce 代码来轻松高效地访问 HAWQ 数据。不同于Hadoop提供的DBInputFormat(这会使master成为性能瓶颈，因为所有数据都先经过master)，HAWQ InputFormat for MapReduce让你的Spark和MapReduce代码直接访问存储在HDFS中的HAWQ数据。它是完全分布式的，因此非常高效。

最后，当然，您仍然可以使用 SQL 通过 HAWQ 查询您的数据，就像您使用 Greenplum DB 所做的那样。

关于scala - 用于 TB 级结构化数据的 Greenplum、Pivotal HD + Spark 或 HAWQ？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32531383/

有关scala - 用于 TB 级结构化数据的 Greenplum、Pivotal HD + Spark 或 HAWQ？的更多相关文章

ruby-on-rails - 如何优雅地重启 thin + nginx？ - 2
我的瘦服务器配置了nginx，我的ROR应用程序正在它们上运行。在我发布代码更新时运行thinrestart会给我的应用程序带来一些停机时间。我试图弄清楚如何优雅地重启正在运行的Thin实例，但找不到好的解决方案。有没有人能做到这一点？最佳答案 #Restartjustthethinserverdescribedbythatconfigsudothin-C/etc/thin/mysite.ymlrestartNginx将继续运行并代理请求。如果您将Nginx设置为使用多个上游服务器，例如server{listen80;server
ruby - 分布式事务和队列，ruby，erlang，scala - 2
我有一个涉及多台机器、消息队列和事务的问题。因此，例如用户点击网页，点击将消息发送到另一台机器，该机器将付款添加到用户的帐户。每秒可能有数千次点击。事务的所有方面都应该是容错的。我以前从未遇到过这样的事情，但一些阅读表明这是一个众所周知的问题。所以我的问题。我假设安全的方法是使用两阶段提交，但协议(protocol)是阻塞的，所以我不会获得所需的性能，我是否正确？我通常写Ruby，但似乎Redis之类的数据库和Rescue、RabbitMQ等消息队列系统对我的帮助不大——即使我实现某种两阶段提交，如果Redis崩溃，数据也会丢失，因为它本质上只是内存。所有这些让我开始关注erlang和
ruby - 使用 `+=` 和 `send` 方法 - 2
如何将send与+=一起使用？a=20;a.send"+=",10undefinedmethod`+='for20:Fixnuma=20;a+=10=>30 最佳答案恐怕你不能。+=不是方法，而是语法糖。参见http://www.ruby-doc.org/docs/ProgrammingRuby/html/tut_expressions.html它说Incommonwithmanyotherlanguages,Rubyhasasyntacticshortcut:a=a+2maybewrittenasa+=2.你能做的最好的事情是:
ruby - 如何计算 Liquid 中的变量 +1 - 2
我对如何计算通过{%assignvar=0%}赋值的变量加一完全感到困惑。这应该是最简单的任务。到目前为止，这是我尝试过的:{%assignamount=0%}{%forvariantinproduct.variants%}{%assignamount=amount+1%}{%endfor%}Amount:{{amount}}结果总是0。也许我忽略了一些明显的东西。也许有更好的方法。我想要存档的只是获取运行的迭代次数。最佳答案因为{{incrementamount}}将输出您的变量值并且不会影响{%assign%}定义的变量，我
arrays - Ruby 数组 += vs 推送 - 2
我有一个数组数组，想将元素附加到子数组。+=做我想做的，但我想了解为什么push不做。我期望的行为(并与+=一起工作):b=Array.new(3,[])b[0]+=["apple"]b[1]+=["orange"]b[2]+=["frog"]b=>[["苹果"],["橙子"],["Frog"]]通过推送，我将推送的元素附加到每个子数组(为什么？):a=Array.new(3,[])a[0].push("apple")a[1].push("orange")a[2].push("frog")a=>[[“苹果”、“橙子”、“Frog”]、[“苹果”、“橙子”、“Frog”]、[“苹果”、“
+= 的 Ruby 方法 - 2
有没有办法让Ruby能够做这样的事情？classPlane@moved=0@x=0defx+=(v)#thisiserror@x+=v@moved+=1enddefto_s"moved#{@moved}times,currentxis#{@x}"endendplane=Plane.newplane.x+=5plane.x+=10putsplane.to_s#moved2times,currentxis15 最佳答案您不能在Ruby中覆盖复合赋值运算符。任务在内部处理。您应该覆盖+，而不是+=。plane.a+=b与plane.a=
ruby - Sinatra + Heroku + Datamapper 使用 dm-sqlite-adapter 部署问题 - 2
出于某种原因，heroku尝试要求dm-sqlite-adapter，即使它应该在这里使用Postgres。请注意，这发生在我打开任何URL时-而不是在gitpush本身期间。我构建了一个默认的Facebook应用程序。gem文件:source:gemcuttergem"foreman"gem"sinatra"gem"mogli"gem"json"gem"httparty"gem"thin"gem"data_mapper"gem"heroku"group:productiondogem"pg"gem"dm-postgres-adapter"endgroup:development,:t
ruby - Ruby 中字符串运算符 + 和 << 的区别 - 2
我是Ruby和这个网站的新手。下面两个函数是不同的，一个在函数外修改变量，一个不修改。defm1(x)x我想确保我理解正确-当调用m1时，对str的引用被复制并传递给将其视为x的函数。运算符当调用m2时，对str的引用被复制并传递给将其视为x的函数。运算符+创建一个新字符串，赋值x=x+"4"只是将x重定向到新字符串，而原始str变量保持不变。对吧？谢谢最佳答案 String#+::str+other_str→new_strConcatenation—ReturnsanewStringcontainingother_strconc
ruby-on-rails - 在 Rails 中存储(结构化)配置数据的位置 - 2
对于我正在编写的Rails3应用程序，我正在考虑从本地文件系统上的XML、YAML或JSON文件中读取一些配置数据。重点是:我应该把这些文件放在哪里？Rails应用程序中是否有用于存储此类内容的默认位置？附带说明一下，我的应用程序部署在Heroku上。最佳答案我经常做的是:如果文件是通用配置文件:我在目录/config中创建一个YAML文件，每个环境有一个上层key如果我为每个环境(大项目)创建一个文件:我为每个环境创建一个YAML并将它们存储在/config/environments/然后我在加载YAML的地方创建了一个初始化
ruby - rails 3.2.2(或 3.2.1)+ Postgresql 9.1.3 + Ubuntu 11.10 连接错误 - 2
我正在使用PostgreSQL9.1.3(x86_64-pc-linux-gnu上的PostgreSQL9.1.3，由gcc-4.6.real(Ubuntu/Linaro4.6.1-9ubuntu3)4.6.1，64位编译)和在ubuntu11.10上运行3.2.2或3.2.1。现在，我可以使用以下命令连接PostgreSQLsupostgres输入密码我可以看到postgres=#我将以下详细信息放在我的config/database.yml中并执行“railsdb”，它工作正常。开发:adapter:postgresqlencoding:utf8reconnect:falsedat

scala - 用于 TB 级结构化数据的 Greenplum、Pivo​​tal HD + Spark 或 HAWQ？

有关scala - 用于 TB 级结构化数据的 Greenplum、Pivo​​tal HD + Spark 或 HAWQ？的更多相关文章

随机推荐

scala - 用于 TB 级结构化数据的 Greenplum、Pivotal HD + Spark 或 HAWQ？

有关scala - 用于 TB 级结构化数据的 Greenplum、Pivotal HD + Spark 或 HAWQ？的更多相关文章