草庐IT

aggregation-pipeline-limits

全部标签

hadoop - 尝试在 Hadoop 上运行 Mahout 测试分类器时出现 "GC overhead limit exceeded"

我在Linux上使用Hadoop版本0.20.2。我正在尝试使用以下命令测试分类器模型:bin/hadoopjar/usr/local/mahout/examples/target/mahout-examples-0.6-job.jar\org.apache.mahout.classifier.bayes.TestClassifier-mwikipediamodel-dwikipediainput但是我收到以下错误:14/03/0608:57:36INFOcommon.HadoopUtil:Deletingwikipediainput-output14/03/0608:58:32WAR

hadoop - Apache Spark - Hive 内部连接、LIMIT 和自定义 UDF

我正在尝试在配置单元中运行查询:这是最简单的设置(我知道我可以做一个=但我使用的是自定义UDF,它不仅仅是一个相等比较)数据集a和b各有30,000行左右SELECT*FROMaINNERJOINbONCustom_UDF_Equals_Comparison(a.id,b.id)LIMIT5其中custom_UDF_Equals_Comparison只是在a.id=b.id之间进行相等性检查当我运行这个查询时,我可以在我的日志输出中看到很多m/r任务正在运行,假设它在两个数据集之间进行比较,直到比较所有可能的排列,并且远高于5的限制(我会预计只有少数m/r任务,因为我知道大部分数据可以

hadoop - 如何解决 YARN 日志中的 Log aggregation has not completed or is not enabled 错误

我正在使用EMR5.4并将spark作业提交给Yarn当我尝试使用yarnlogs-applicationIdapplication_1528461193301_0001检索日志时,出现以下错误:18/06/0812:38:01INFOclient.RMProxy:ConnectingtoResourceManageratip-10-0-182-144.eu-west-1.compute.internal/10.0.182.144:8032s3://xxx/apps/root/logs/application_1528461193301_0001doesnotexist.Logaggr

hadoop - 什么是 "HDFS write pipeline"?

当我阅读hadoop权威指南时,我停留在以下句子:-writingthereduceoutputdoesconsumenetworkbandwidth,butonlyasmuchasanormalHDFSwritepipelineconsumes.问题:1.能否帮助我更详细地理解上面的句子。2.“HDFS写入管道”是什么意思? 最佳答案 当文件被写入HDFS时,许多与HDFSblock一致性和复制相关的事情正在幕后发生。这个过程的主要IO组件是far复制。还有与注册block的存在和状态的名称节点的双向通信。我认为当它说“写入管道”

Hadoop 流式传输 "GC overhead limit exceeded"

我正在运行这个命令:hadoopjarhadoop-streaming.jar-Dstream.tmpdir=/tmp-input""-output""-mapper"grep20151026"-reducer"wc-l"在哪里是一个有很多avro的目录文件。出现这个错误:Exceptioninthread"main"java.lang.OutOfMemoryError:GCoverheadlimitexceededatorg.apache.hadoop.hdfs.protocol.DatanodeID.updateXferAddrAndInvalidateHashCode(Datan

Jenkins的pipeline发生错误后继续执行

问题    Jenkins的pipeline可以分步骤运行,但是正常运行的情况下,如果有一个错误了,将不会继续运行下面的任务,这样导致了,前面的第一个任务报错了,后面的所有任务都不知道是什么状态,所以如果说一次想看到所有任务的状态的话,这样肯定是不行的,下面是我的解决方法解决方法   首先大家应该知道,script里面可以通过 catchError 来捕捉错误,那样我们只要在里面加入 catchError 就可以避免错误了,但是咱们最后的还需要看到任务的状态,所以下面就是任务状态的解决办法script中有 buildResult和stageResult两种记录状态的变量buildResult是

hadoop - HIVE: 'LIMIT' 上的 'SELECT * from' 如何在后台工作?

只是想知道以下简单查询的限制是如何工作的select*fromTlimit100假设表T有1300万条记录请问上面的查询:1.先将1300万全部加载到内存中,只显示结果集中的100条记录?2.只加载100条结果集100条记录现在已经搜索它很长一段时间了,大多数页面只谈论使用“LIMIT”而不是Hive如何在幕后处理它。感谢任何有用的回复。 最佳答案 Ifnooptimizerapplied,hiveendupscanningentiretable.ButHiveoptimizesthiswithhive.fetch.task.con

hadoop - Spark SQL "Limit"

环境:使用Hadoop的spark1.6。Hortonworks数据平台2.5我有一个有100亿条记录的表,我想获取3亿条记录并将它们移动到一个临时表。sqlContext.sql("select....frommy_tablelimit300000000").repartition(50).write.saveAsTable("temporary_table")我看到Limit关键字实际上会让spark只使用一个执行器!!!这意味着将3亿条记录移动到一个节点并将其写回Hadoop。我怎样才能避免这种减少,但在拥有多个执行者的情况下仍然只能获得3亿条记录。我希望所有节点都写入hadoo

api - 纱 API : Getting Yarn Aggregated Logs for application by API

我使用YARNjavaAPI而不是在终端中提交Hadoop应用程序。我正在寻找一种在应用程序完成后通过YarnAPI获取yarn聚合日志的方法。当然,这可以通过简单的命令来完成:“yarnlogs-applicationId{my_application_ID}”,但我想通过API来完成。有人知道如何使用API而不是命令行来获取这些日志吗?谢谢。 最佳答案 正如您在代码源上所做的那样https://github.com/apache/hadoop/blob/trunk/hadoop-yarn-project/hadoop-yarn/

garbage-collection - Hadoop .20 数据节点上的 "GC Overhead limit exceeded"

我搜索过,但没有找到太多与HadoopDatanode进程因超出GC开销限制而死掉相关的信息,所以我想我应该发布一个问题。我们正在运行一项测试,我们需要确认我们的Hadoop集群可以处理存储在其上的约300万个文件(目前是一个4节点集群)。我们使用的是64位JVM,我们已经为名称节点分配了8g。然而,当我的测试程序向DFS写入更多文件时,数据节点开始因以下错误而消失:线程“DataNode:[/var/hadoop/data/hadoop/data]”中的异常java.lang.OutOfMemoryError:GCoverheadlimitexceeded我看到了一些关于某些选项的帖