postgresql-performance

java - 使用java代码将数据从postgresql迁移到hdfs

我是Hadoop新手，任务是使用Java代码将结构化数据迁移到HDFS。我知道Sqoop可以完成同样的任务，但这不是我的任务。有人可以解释一下执行此操作的可能方法吗？我确实尝试过这样做。我所做的是使用jdbc驱动程序从psql服务器复制数据，然后将其以csv格式存储在HDFS中。这是解决此问题的正确方法吗？我读到Hadoop有自己的数据类型来存储结构化数据。你能解释一下这是怎么发生的吗？谢谢。最佳答案最先进的技术是使用(pullETL)sqoop作为常规批处理从RDBM获取数据。然而，这种方式对RDBMS来说既资源消耗(通常sq

performance - 多节点上的h2o和hadoop上的h2o有什么区别？

在H2O网站上，它说H2O’scorecodeiswritteninJava.InsideH2O,aDistributedKey/Valuestoreisusedtoaccessandreferencedata,models,objects,etc.,acrossallnodesandmachines.ThealgorithmsareimplementedontopofH2O’sdistributedMap/ReduceframeworkandutilizetheJavaFork/Joinframeworkformulti-threading.这是否意味着如果H2O在单节点集群上运行，

performance h2o section hadoop machine-learning cluster-computing

performance - Hive 查询卡在执行中间

同事们，我在配置单元中使用sql脚本执行bash文件时遇到问题-它总是卡在同一个地方map=100%，reduce=67%我尝试使用具有不同变体和其他调整特性的映射器和缩减器数量:SEThive.exec.parallel=true;SEThive.default.fileformat=RCFILE;SEThive.stats.autogather=false;SEThive.exec.compress.output=true;SETmapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;SET

查询卡 performance section 配置单 hive hadoop

performance - 为什么 hadoop map 任务上的更多内存会使 mapreduce 作业变慢？

我想问一下。为什么如果我在mapreduce.map/reduce.memory.mb和mapreduce.map/reduce.java.opts中将mapred-site.xml配置为比默认值更大的值会使我的工作变慢？但是如果我将它配置得太低，那么我会任务失败。而且我认为在这种情况下，我在hadoop上的内存配置是没有必要的......你能给我解释一下吗？最佳答案当您增加mapreduce.map/reduce.memory.mb和mapreduce.map/reduce.java.opts的值时，您的环境中可能会发生什么>

performance mapreduce section 容器 hadoop memory hadoop-yarn

performance - hadoop大文件不拆分

我有一个大小为136MB的输入文件，我启动了一些WordCount测试，我只监控一个映射器。然后我在我的hdfs-site.xml中将dfs.blocksize设置为64MB并且我仍然得到一个映射器。我做错了吗？最佳答案 dfs.block.sizeisnotaloneplayingaroleandit'srecommendednottochangebecauseitappliesgloballytoHDFS.Splitsizeinmapreduceiscalculatedbythisformulamax(mapred.min.s

大文 performance code section size hadoop split mapreduce

sql-server - 我们可以使用 PostgreSQL 和 PolyBase 来连接 Hadoop 吗？

微软终于进军大数据领域，推出了PolyBase接口(interface)来连接Hadoop，让现有的MSSQLServer用户可以利用Hadoop生态系统存储大量数据。这里我有1个问题，我们可以使用postgreSQL而不是MSSQLServer来使用最近随MSSQLServer2016发布的PolyBase接口(interface)连接Hadoop。我知道还有很多其他方法可以做到这一点，但想特别了解如何使用PolyBase(PDW)。实际上，我的公司总是欢迎微软作为基于其平台的大部分应用程序参与的解决方案。我知道使用PolyBase并行数据仓库是可能的，但需要一些提示才能做到这一点。

sql-server PostgreSQL section PolyBase Server hadoop hortonworks-data-platform azure-hdinsight

PostgreSQL聚合功能和缺少帧行

我正在尝试定义一个postgresql聚合函数，该功能知道框架子句中要求的行，但丢失了。具体来说，让我们考虑一个聚合功能framer其作业是返回由通过其汇总的值组成的数组，帧中的任何缺少值返回为null。所以，selectn,v,framer(v)over(orderbyvrowsbetween2precedingand2following)arrfrom(values(1,3200),(2,2400),(3,1600),(4,2900),(5,8200))asv(n,v)orderbyv应该返回"n""v""arr"31600{null,null,1600,2400,2900}22400{n

PostgreSQL 缺少 code 2900 2400

performance - Spark 。数据缓存？

我正在spark-shell中测试以下脚本-分区表的单分区扫描。vals=System.nanoTimevarq=s"""select*frompartitioned_tablewherepart_column='part_column_value'"""spark.sql(q).showprintln("Elapsed:"+(System.nanoTime-s)/1e9+"seconds")第一次执行大约需要30秒，而所有后续执行大约需要2秒。如果我们看一下运行时统计信息——在第一次执行之前还有两个额外的作业看起来有1212个阶段的作业扫描表中的所有分区(分区总数1199，该表的HD

performance Spark section image noreferrer hadoop apache-spark caching apache-spark-sql

hadoop - ifile EBADF : Bad file descriptor while performing matrix addition 上的预读失败

我正在尝试在ApachePig中编写用于矩阵加法的代码。matrixM=LOAD'Mmatrix.txt'USINGPigStorage(',')AS(i,j,v);matrixN=LOAD'Nmatrix.txt'USINGPigStorage(',')AS(i,j,v);unionres=UNIONmatrixM,matrixN;DUMPunionres;res=GROUPunionresBY(i,j);DUMPres;ILLUSTRATEres;final_res=FOREACHresGENERATEgroup.$0ASi,group.$1ASj,SUM(unionres.v)A

预读 descriptor section java ThreadPoolExecutor hadoop apache-pig

performance - 自定义映射器和 Reducer 与 HiveQL

问题陈述:-我需要比较两个表Table1和Table2，它们都存储相同的内容。所以我需要将Table2与Table1进行比较，因为Table1是需要进行比较的主表。因此，在比较之后，我需要报告Table2存在某种差异。这两个表有很多数据，大约TB的数据。所以目前我已经编写了HiveQL来进行比较并取回数据。所以我的问题是，就PERFORMANCE而言，编写CUSTOMMAPPER和REDUCER来完成此类工作或HiveQL哪个更好>我写的会很好，因为我将在数百万条记录上加入这两个表。据我所知，HiveQL在内部(在幕后)生成优化的自定义map-reducer并提交执行并取回结果。

自定射器 code Hive performance hadoop mapreduce hiveql

50 51 525354 55 56