草庐IT

gc_allocator

全部标签

hadoop - 如何为 Apache Hadoop NameNode 启用 GC 日志记录,同时防止日志文件覆盖和限制磁盘空间使用

我们最近决定在多个集群(具体版本各不相同)上为HadoopNameNode启用GC日志记录,以帮助调查与NameNode相关的内存和垃圾收集问题。我们希望集群中的所有NameNode(事件和备用或主要和次要)都这样做。我们还想避免两个我们知道可能会发生的问题:当NameNode因任何原因重启时覆盖日志文件日志使用过多的磁盘空间,导致磁盘被填满当为进程启动JavaGC日志记录时,它似乎会替换任何具有相同名称的文件的内容。这意味着除非您小心,否则您将丢失GC日志记录,也许在您更有可能需要它的时候。如果您让集群运行足够长的时间,日志文件将填满磁盘,除非进行管理。即使GC日志记录目前不是很多,

hadoop - 获取 java.lang.OutOfMemoryError : GC overhead limit exceeded While Submitting Map Reduce

提交mapreduce时收到以下消息。我使用-XX:MaxPermSize=128m内存大小启动我的mapreduce程序。有没有人知道现在发生了什么-17/03/2409:58:46INFOhdfs.DFSClient:CreatedHDFS_DELEGATION_TOKENtoken1160328forsvc_pffronha-hdfs:nameservice317/03/2409:58:46ERRORhdfs.KeyProviderCache:Couldnotfinduriwithkey[dfs.encryption.key.provider.uri]tocreateakeyPr

hadoop - 如何为 Hadoop YARN ResourceManager 和 ApplicationTimeline 启用 GC 日志记录,同时防止日志文件覆盖和限制磁盘空间使用

我们最近决定在多个集群(具体版本各不相同)上为HadoopYARNResourceManager和ApplicationTimeline服务器启用GC日志记录,以帮助调查与YARN相关的内存和垃圾收集问题。这样做时,我们想避免两个我们知道可能会发生的问题:当YARNRM或AT服务器因任何原因重启时覆盖日志文件日志使用过多的磁盘空间,导致磁盘被填满当为进程启动JavaGC日志记录时,它似乎会替换任何具有相同名称的文件的内容。这意味着除非您小心,否则您将丢失GC日志记录,也许在您更有可能需要它的时候。如果您让集群运行足够长的时间,日志文件将填满磁盘,除非进行管理。即使GC日志记录目前不是很

apache-spark - Spark : Understanding Dynamic Allocation

我已经启动了一个具有以下配置的spark作业:--masteryarn--deploy-modecluster--confspark.scheduler.mode=FAIR--confspark.dynamicAllocation.enabled=true--confspark.dynamicAllocation.maxExecutors=19--confspark.dynamicAllocation.minExecutors=0它运行良好并成功完成,但在检查sparkhistoryui后,这是我看到的:我的问题是(我关心的是理解而不是解决方案):如果没有任务可做,为什么spark会请

hadoop - cloudera hadoop mapreduce 作业 GC 开销限制超出错误

我正在clouderacdh4上运行一个canopy集群作业(使用mahout)。待聚类的内容大约有1m条记录(每条记录大小小于1k)。整个hadoop环境(包括所有节点)运行在一个4G内存的虚拟机中。默认情况下安装cdh4。运行作业时出现以下异常。根据异常情况,作业客户端似乎需要更大的jvm堆大小。但是clouderamanager中jvmheapsize的配置选项还是挺多的。我将“客户端Java堆大小(以字节为单位)”从256MiB更改为512MiB。然而,它并没有改善。关于设置这些堆大小选项的任何提示/技巧?13/07/0317:12:45INFOinput.FileInputF

hadoop - 尝试在 Hadoop 上运行 Mahout 测试分类器时出现 "GC overhead limit exceeded"

我在Linux上使用Hadoop版本0.20.2。我正在尝试使用以下命令测试分类器模型:bin/hadoopjar/usr/local/mahout/examples/target/mahout-examples-0.6-job.jar\org.apache.mahout.classifier.bayes.TestClassifier-mwikipediamodel-dwikipediainput但是我收到以下错误:14/03/0608:57:36INFOcommon.HadoopUtil:Deletingwikipediainput-output14/03/0608:58:32WAR

hadoop - GC 开销限制超出 Pig 中杀死的容器

我正在使用YARN在hadoop2集群的开发环境中执行13个表映射连接。所有表作为LEFTOUTER与主表连接。共有15个连接连接。由于大多数小表都小于200-300MB,所以我使用USING'replicated'来执行脚本代码。它执行得相当快,但卡在95-99%以上。当我检查应用程序url时,2reducers失败抛出错误为“GC开销限制超出了由ApplicationMaster杀死的容器。根据请求杀死了容器。退出代码为143容器以非零退出代码143退出。OtherreducerfailedwitherrorTimedoutafter300secsContainerkilledby

Hadoop 流式传输 "GC overhead limit exceeded"

我正在运行这个命令:hadoopjarhadoop-streaming.jar-Dstream.tmpdir=/tmp-input""-output""-mapper"grep20151026"-reducer"wc-l"在哪里是一个有很多avro的目录文件。出现这个错误:Exceptioninthread"main"java.lang.OutOfMemoryError:GCoverheadlimitexceededatorg.apache.hadoop.hdfs.protocol.DatanodeID.updateXferAddrAndInvalidateHashCode(Datan

java - 在 hadoop 作业结束后运行 pig 作业时的 GC 开销

我正在运行一个非常简单的pig脚本(pig0.14,Hadoop2.4):customers=load'/some/hdfs/path'usingSomeUDFLoader();customers2=foreach(groupcustomersbycustomer_id)generateFLATTEN(group)ascustomer_id,MIN(dw_customer.date)asdate;storecustomers2into'/hdfs/output'usingPigStorage(',');这将启动约60000个映射器和999个缩减器的map-reduce作业。在map-r

java - Hadoop:堆空间和gc问题

我目前正在开展一个项目,我需要为我的maptask提供一个内存结构。我做了一些计算,我可以说每个maptask不需要超过600MB的内存。但问题是,一段时间后我遇到了Java堆空间问题或gc开销限制。我不知道这怎么可能。这里有更多的细节。我有两个带12GB内存的四核系统。所以这意味着我最多可以同时运行8个maptask。我正在build一棵树,所以我有一个迭代算法,可以为每个树级别执行map-reduce作业。我的算法适用于小型数据集,但对于中型数据集存在堆空间问题。我的算法达到某个树级别,然后超出堆空间,或者出现gc开销问题。那时,我做了一些计算,发现每个任务不需要超过100MB的内