草庐IT

PostgreSQL-psql

全部标签

postgresql - Sqoop - 在保存的作业中使用模式

当我在shell上运行这个命令时工作正常:sqoopimport--incrementalappend--check-columnid_civilstatus--last-value-1--connectjdbc:postgresql://somehost/somedb--usernamesomeuser--password-filefile:///passfile.txt--tablesometable--direct-m3--target-dir/jobs/somedir----schemasomeschema但是当我尝试将其保存为作业时:sqoopjob--createmyjob

postgresql - 配置单元 + 与 PostgreSQL 数据库的连接过多

我们有带Hadoop版本的ambari集群–2.6.4当我们运行查询以验证PostgreSQL数据库中的连接时,我们发现了许多hive连接——在我们的例子中大约有90个这会导致其他应用程序问题因此我们怀疑hiveserver2没有像它应该的那样清理连接并且没有释放文件。有什么建议为什么hive有很多联系吗?到postgresql?,解决方案是什么?我们发现的一个选项是更新文件/etc/security/limits.conf(根据链接中的答案https://community.hortonworks.com/questions/48351/hiveserver2-hive-users-

postgresql - Put 请求失败 : INSERT INTO "PARTITION_PARAMS" when executing an insert. .select 包含数百个字段的查询

在带有hive3的HortonworksHDP3集群上通过Tez执行插入..选择查询,我收到以下错误:java.sql.SQLException:Errorwhileprocessingstatement:FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.MoveTask.MetaException(message:Putrequestfailed:INSERTINTO"PARTITION_PARAMS"("PARAM_VALUE","PART_ID","PARAM_KEY")VALUES(?,?,?

postgresql - 当 Hawq 投诉 : missing data for column "SoldToAddr2" 时如何解决错误

我们有一个小型的关键hadoop-hawq系统集群。我们必须读取一个外部表。即从ext_table中选择*但是当我在Hawq中发出关于以下错误的投诉时:ErrorHawqcomplaintsfor:missingdataforcolumn"SoldToAddr2"我们尝试了以下操作:我们尝试在ext_table定义的格式子句中使用不同的特殊字符:forex:CREATEREADABLEEXTERNALTABLEext_table("ID"INTEGER,timetimestamp,"Customer"char(7),"Name"varchar,"ShortName"char(10),"

postgresql - 用于 spark/hadoop 的 Postgres 适配器增加了什么值(value)?

我不是HDFSNerd,但来自传统的RDMS背景,我正在接触Hadoop和Spark等新技术。现在,当涉及到对Spark数据进行SQL查询时,我正在研究我的选择。我意识到Spark天生就支持SQL查询。然后我遇到了这个链接https://www.enterprisedb.com/news/enterprisedb-announces-new-apache-spark-connecter-speed-postgres-big-data-processing我正在努力弄清这一点。如果我理解正确的话。数据仍然以HDFS格式存储,但Postgres连接器用作查询引擎?如果是这样,在存在现有查询

postgresql - 从 PostgreSQL 到 Cassandra - 不支持聚合函数

我需要你的建议。我有一个在PostgreSQL上运行的应用程序,但它需要很长时间才能恢复数据。我想使用Cassandra,但注意到CQL不支持聚合。这对Hadoop来说是可能的还是我完全走错了路?此外,所有日期都存储在Epoch中,CQL无法转换它们。将在PostGreSQL上运行的应用程序转换为Cassandra的最佳方法是什么?感谢您的任何建议。 最佳答案 Cassandra在2.2中引入了聚合函数CASSANDRA-4914.使用标准(内置)函数的文档是here用于创建自定义聚合函数的是here.

postgresql - 关于 hawq pxf 访问 hdfs 上的文件数据

在我部署了hdfs、mapreduce、hawq、pxf和ambari之后,我使用impala-tpcds-kits在hdfs上生成了大约10G数据。但是当我用用户postgres登录Postgres时,我不能使用命令行CREATEEXTERNALTABLE来索引hdfs上的数据。当我使用psqlhelp命令时,没有关键字CREATEEXTERNALTABLE。不知道为什么?Lastlogin:ThuAug2515:08:152016from192.168.1.50[root@hadoop-m-21~]#supostgresbash-4.1$psqlpsql(8.4.20)Type"h

postgresql - 大量导出时出现 Sqoop PSQLException "Sorry, too many clients already"

当从HDFS导出大型(超过200万行)表到Postgres时,我看到Sqoop抛出PSQLException“抱歉,客户端已经太多了”。我有几张较小的table(约300万张),它们似乎运行良好。即使大表出现故障,我的postgres表中似乎仍然有大约200万行,但我猜这只是来自那些没有死的worker,因为他们首先获得了其中一个连接。我的Postgres表配置为允许300个max_connections,并且有大约70个连接始终来自其他应用程序,因此SQOOP应该有大约230个可供使用。我尝试在我的SQOOP导出命令中将--num-mappers切换为2-8,但这似乎并没有太大的区别

postgresql - 将 postgresql 数组导入配置单元

我一直在使用Sqoop在Postgresql表和Hive之间移动数据。但是显然Sqoop不支持Postgresql数组类型。 最佳答案 Postgresql有一个名为array_to_string的函数。您可以利用它来将数组转换为字符串。为了说明,这是postgresql中的表:=#select*fromalbums;id|album_id|names-----------+-------+-----123|{1,2,3,4}|test(1row)=#如您所见,album_id具有数组类型,更具体地说是一个整数数组。现在,要从名为m

postgresql - 如何从 Postgres 数据库到 Hadoop 序列文件?

我需要将数据从Postgres数据库获取到Accumulo数据库。我们希望使用序列文件来运行map/reduce作业来执行此操作,但不确定如何开始。由于内部技术原因,我们需要避免使用Sqoop。如果没有Sqoop,这是否可能?再一次,我真的不知道从哪里开始。我是否编写一个java类来将所有记录(数百万条)读入JDBC并以某种方式将其输出到HDFS序列文件?感谢任何输入!附言-我应该提到使用分隔文件是我们现在遇到的问题。我们的一些是包含定界符的长字符字段,因此无法正确解析。该字段甚至可能有一个选项卡。我们想从Postgres直接转到HDFS而无需解析。 最佳答