草庐IT

postgresql-contrib

全部标签

postgresql - Hadoop 适用于此吗?

我们有一些Postgres查询需要6到12个小时才能完成,并且想知道Hadoop是否适合更快地完成它。我们有(2)个64核服务器和256GBRAM可供Hadoop使用。我们正在运行PostgreSQL9.2.4。Postgres只在一台服务器上使用一个内核来进行查询,所以我想知道Hadoop是否可以将查询速度提高大约128倍,同时减去开销。我们有两组数据,每组都有数百万行。设置一:idcharactervarying(20),a_latdoubleprecision,a_longdoubleprecision,b_latdoubleprecision,b_longdoublepreci

java - 在 Hortonworks 沙箱中流式传输 Hadoop jar 文件,没有 contrib 目录

我正在hortonworks沙箱中演示hadoopvirtualmachine.我之前在EC2上设置了简单的elasticmapreduce流作业,遵循patterns喜欢this,或this.但是,我似乎没有安装流媒体jar——事实上,我似乎缺少许多所需的基本目录:$HADOOP_HOME/mapred/contrib/我的ls-lah实际上是这样的:[root@sandbox~]#ls-lahtotal60Kdr-xr-x---.5rootroot4.0KApr1018:52.dr-xr-xr-x.24rootroot4.0KApr1018:31..-rw-------1rootr

postgresql - 如何将数据从 PostgreSQL 导入到 Hadoop?

我只是Hadoop的初学者,我的一所大学要求我帮助将一些PostgreSQL表迁移到Hadoop。由于我没有太多使用PostgreSQL的经验(虽然我知道数据库),我不确定什么是进行此迁移的最佳方式。我的想法之一是将表导出为gson数据,然后从Hadoop中处理它们,如本例所示:http://www.codeproject.com/Articles/757934/Apache-Hadoop-for-Windows-Platform.有没有更好的方法将数据(表和数据库)从PostgreSQL导入到Hadoop? 最佳答案 Sqoop(

postgresql - 在 Docker 中使用 Sqoop 导入 PostgreSQL

我的本​​地机器(Windows)上有一个PostgreSQL数据库,我想使用ApacheSqoop将它导入到我的Hortonworks沙箱中。虽然像this听起来不错,复杂的因素是我的Sandbox位于Docker容器中,所以像sqooplist-tables--connectjdbc:postgresql://127.0.0.1/ambari--usernameambari-P这样的语句似乎遇到身份验证错误。我认为问题出在尝试从docker容器内部连接到本地主机。我看了thispost关于从容器内连接到MySQL数据库和thisone尝试改用PostgreSQL,但到目前为止还没有

postgresql - OpenStreetMap 和 Hadoop

我需要一些关于Hadoop和OpenStreetMap的周末项目的想法。我可以访问我的EBS卷中带有OpenStreetMap快照的AWSEC2实例。OpenStreetMap数据位于PostgreSQL数据库中。什么样的MapReduce函数可以在OpenStreetMap数据上运行,假设我可以将它们导出为xml格式,然后放入HDFS?换句话说,我现在脑子抽筋了,想不出什么样的MapReduce操作可以从OpenStreetMapxml中提取有值(value)的信息?(即提取所有指定为公园或高尔夫球场的地方。但这只需要进行一次,而不是连续进行)非常感谢 最

postgresql - 使用简单模型对 1TB 数据进行报告/分析的数据库

大数据=1TB,每年增长10%。模型很简单..一张表有25列。不与其他表连接..我希望对25列的子集进行简单的查询过滤..我猜传统的SQL存储在过滤列上有索引是必需的。Hadoop是矫枉过正,没有意义,因为这是一个实时服务。蒙戈?像pentaho这样的双引擎?有什么建议吗? 最佳答案 似乎传统解决方案确实听起来不错,除非您所描述的真正简单的模型不会有任何重大变化。NoSQL听起来不是BI/报告的最佳选择。获得一个好的硬件。花时间进行性能测试并构建所有必需的索引。实现适当的新数据上传策略。实现表级partitioning根据您的需求和

postgresql - Sqoop+PostgreSQL : how to prevent quotes around table name

我正在尝试将一个表从Postgresql导入到HDFS上的一个Parquet文件。这是我的做法:sqoopimport\--connect"jdbc:postgresql://pg.foo.net:5432/bar"\--usernameuser_me--password$PASSWORD\--tablefoo.bar\--target-dir/user/me/bar\--as-parquetfile我明白了INFOmanager.SqlManager:ExecutingSQLstatement:SELECTt.*FROM"foo.bar"AStLIMIT1ERRORmanager.S

postgresql - HDFS 到 PostgreSQL

我们需要一个流程来从HadoopDistributedFileSystem(HDFS)中提取数据定期到关系数据库(PostgreSQL)。我们需要每小时传输几百万条记录,我正在寻找最好的行业标准来将数据移出HDFS。有没有人有什么建议?这个想法是让网络应用程序与PostgreSQL交互,后者将聚合数据。 最佳答案 Sqoop是为了在关系数据存储和Hadoop之间移动数据而构建的。具体来说,你想要sqoop-export. 关于postgresql-HDFS到PostgreSQL,我们在S

java - 如何找到 JAR :/home/hadoop/contrib/streaming/hadoop-streaming. jar

我正在练习一个关于AmazonEMR的多视角视频教程。我被卡住了,因为我收到此错误而无法继续不是有效的JAR:/home/hadoop/contrib/streaming/hadoop-streaming.jar请注意教程是旧的,它使用的是旧的Emr版本。我使用的是最新版本,这是个问题吗?我采取的步骤是在腻子中输入凭据之后1)Hadoop2)mkdirstreamingCode`3)wget-o./streamingCode/wordSplitter.pys3://elasticmapreduce/samples/wordcount/wordSplitter.py4)hadoopjar

postgresql - 无法使用 Cloudera Manager 安装 hadoop

我正在尝试使用clouderaManager5.9在单个VM中设置hadoop集群(为简单起见)。以下是我的环境的详细信息:HostOS->Windows10Virtualizationsoftware->Virtualbox5.1.10GuestOS->CentOS6.8我安装了ClouderaManager,并按照ClouderaManager的说明按照步骤操作。大部分安装步骤都很好,但在最后一次检查时失败了。下面是它的屏幕截图。如屏幕截图所示,它给出了错误:“意外错误。无法验证数据库连接。”我已经对Cloudera默认使用的Postgres数据库的配置文件进行了必要的更改,即它应