草庐IT

dynamic-parallelism

全部标签

Hadoop Distcp - 增加 distcp.dynamic.max.chunks.tolerable 配置和调整 distcp

我正在尝试使用distcp在两个hadoop集群之间移动数据。大量的小文件需要移动大量的数据。为了让它更快,我尝试使用-strategydynamic,根据文档,它“允许更快的数据节点比更慢的节点复制更多的字节”。我将映射器的数量设置为400。当我启Action业时,我看到此错误:java.io.IOException:使用splitRatio:2、numMaps:400创建的block太多。减少numMaps或降低拆分比率以继续。当我用谷歌搜索时,我找到了这个链接:https://issues.apache.org/jira/browse/MAPREDUCE-5402在这个链接中,作

apache-spark - Spark : Understanding Dynamic Allocation

我已经启动了一个具有以下配置的spark作业:--masteryarn--deploy-modecluster--confspark.scheduler.mode=FAIR--confspark.dynamicAllocation.enabled=true--confspark.dynamicAllocation.maxExecutors=19--confspark.dynamicAllocation.minExecutors=0它运行良好并成功完成,但在检查sparkhistoryui后,这是我看到的:我的问题是(我关心的是理解而不是解决方案):如果没有任务可做,为什么spark会请

Hadoop PIG 输出未使用 PARALLEL 运算符拆分为多个文件

看来我错过了什么。我的数据上的reducer数量在HDFS中创建了那么多文件,但我的数据没有拆分成多个文件。我注意到的是,如果我对按顺序排列的键执行groupby它工作正常,就像下面的数据根据​​键很好地分成两个文件:1hello2bla1hi2works2end但是这个数据没有拆分:1hello3bla1hi3works3end我使用的代码对其中一个工作正常而对另一个工作不正常是InputData=LOAD'above_data.txt';GroupReq=GROUPInputDataBY$0PARALLEL2;FinalOutput=FOREACHGroupReqGENERATEf

hadoop - 使用 hive.optimize.sort.dynamic.partition 选项避免单个文件

我正在使用配置单元。当我使用INSERT查询编写动态分区并打开hive.optimize.sort.dynamic.partition选项(SEThive.optimize.sort.dynamic.partition=true)时,总是有单个每个分区中的文件。但是如果我关闭该选项(SEThive.optimize.sort.dynamic.partition=false),我会遇到这样的内存不足异常。TaskAttempt3failed,info=[Error:Errorwhilerunningtask(failure):attempt_1534502930145_6994_1_01

linux - 乌兹 : Sqoop dynamic target directory

我正在执行Oozie工作流中的sqoop作业。我可以在sqoop命令中创建具有静态名称的目标目录,如下所示。${jobTracker}${nameNode}job--execEMPLOYEE--meta-connectjdbc:hsqldb:hsql://:/sqoop----target-dir/user/test/Employee/20150126我需要创建带有日期的动态目标目录。我试过跟随,但没有用。${jobTracker}${nameNode}job--execEMPLOYEE--meta-connectjdbc:hsqldb:hsql://:/sqoop----target

hadoop - 配置单元加载数据 :how to specify file column separator and dynamic partition columns?

好吧,我有一些关于将mysql数据加载到hive2的问题,并且不知道如何指定分隔符,我尝试了serval次但一无所获。下面是hive表,id是分区列,0:jdbc:hive2://localhost/>desctest;+-----------+------------+----------+|col_name|data_type|comment|+-----------+------------+----------+|a|string|||id|int||+-----------+------------+----------+当我执行loaddatalocalinpath'fil

hadoop - yarn : maximum parallel Map task count

Hadoop权威指南中提到了以下内容"Whatqualifiesasasmalljob?Bydefaultonethathaslessthan10mappers,onlyonereducer,andtheinputsizeislessthanthesizeofoneHDFSblock."但是在YARN上执行作业之前,它如何计算作业中没有映射器?在MR1中,映射器的数量取决于编号。输入split。YARN也一样吗?在YARN容器中是灵活的。那么有没有什么方法可以计算可以在给定集群上并行运行的最大映射任务数(某种严格的上限,因为它会让我粗略地了解我可以并行处理多少数据?)?

parallel-processing - HBase 如何跨区域服务器分区表?

请告诉我HBase如何跨区域服务器分区表。例如,假设我的行键是0到10M之间的整数,并且我有10个区域服务器。这是否意味着第一个区域服务器将存储键值为0-10M、第二个1M-2M、第三个2M-3M、...第十个9M-10M的所有行?我希望我的行键是时间戳,但我认为大多数查询将适用于最新日期,所有查询将仅由一个区域服务器处理,是这样吗?或者这些数据可能会以不同的方式传播?或者也许我可以以某种方式创建比我拥有的区域服务器更多的区域,所以(根据给定的示例)服务器1将具有key0-0,5M和3M-3,5M,这样我的数据会更平均地分布,是吗可能的?更新我刚刚发现有选项hbase.hregion.

hadoop - 如何调整 mapred.reduce.parallel.copies?

阅读后http://gbif.blogspot.com/2011/01/setting-up-hadoop-cluster-part-1-manual.html我们想尝试使用mapred.reduce.parallel.copies。该博客提到“非常仔细地查看日志”。我们怎么知道我们已经到达最佳点?我们应该寻找什么?我们如何检测到过度并行化? 最佳答案 为了做到这一点,您基本上应该寻找4个东西:CPU、RAM、磁盘和网络。如果您的设置超过了这些指标的阈值,您可以推断出您正在突破极限。例如,如果您将“mapred.reduce.par

hadoop - Spark 流 : Micro batches Parallel Execution

我们正在从Kafka的sparkstreaming中接收数据。一旦在SparkStreaming中开始执行,它只执行一个批处理,其余批处理开始在Kafka中排队。OurdataisindependentandcanbeprocessesinParallel.我们尝试了具有多个执行器、内核、背压和其他配置的多种配置,但到目前为止没有任何效果。有很多消息在排队,一次只处理了一个微批处理,其余的都留在队列中。我们希望最大程度地实现并行性,以便没有任何微批处理排队,因为我们有足够的可用资源。那么我们如何通过最大限度地利用资源来减少时间。//StartreadingmessagesfromKaf