草庐IT

YARN-Cgroups

全部标签

hadoop - Cloudera CDH 无法为 tez-ui 启动 yarn timeline server

当我通过在ClouderaManager高级配置选项中将配置添加到yarn-site.xml来启用yarn时间服务器时:yarn.timeline-service.hostnameyarn-hostnameyarn.timeline-service.enabledtrueyarn.timeline-service.generic-application-history.enabledtrueyarn.timeline-service.enabledtrueyarn.timeline-service.ttl-enabletrueyarn.resourcemanager.system-me

hadoop - Hadoop YARN 中的 Map 和 Reduce 任务内存设置

在YARN上的MapReduce应用程序中,Reduce任务的最大内存是否需要大于Map任务?就像下面...mapreduce.map.memory.mb=7mapreduce.reduce.memory.mb=14mapreduce.map.java.opts=0.8*7=5,6mapreduce.reduce.java.opts=0.8*2*7=11,2 最佳答案 没有硬性规定,reduce任务内存应该大于map任务内存。默认情况下,mapreduce.map.memory.mb和mapreduce.reduce.memory.

scala - Yarn 集群模式下 Spark 作业的 ClassNotFoundException

所以我试图在通过Oozie工作流启动的Yarn-cluster模式下运行Spark作业,但遇到了以下错误(下面的相关堆栈跟踪)java.sql.SQLException:ERROR103(08004):Unabletoestablishconnection.atorg.apache.phoenix.exception.SQLExceptionCode$Factory$1.newException(SQLExceptionCode.java:388)atorg.apache.phoenix.exception.SQLExceptionInfo.buildException(SQLExce

java - YARN(Hadoop)中的容器分配代码

我正在尝试修改YARN容器分配代码。通过容器分配,我的意思是决定将容器放置在集群中的特定机器上。我想编写自己的容器分配代码。首先,我使用YARN在伪分布式模式下运行Hadoop。我试图在源代码中找到相关点。到目前为止,使用print语句,我已经能够查明类hadoop-source-code/hadoop-yarn-project/hadoop-yarn/hadoop-yarn-common/src/main/java/org/apache/hadoop/yarn/api/impl/pb/client/ApplicationMasterProtocolPBClientImpl.java#

hadoop - yarn 作业不会超过 "state: ACCEPTED"

提前感谢您的帮助。我正在使用提供的Hadoop示例运行yarn作业。作业永远不会完成并停留在“ACCEPTED”状态。查看正在打印的内容,似乎作业正在等待完成——并且客户端不断地探测作业状态。示例作业(来自Hadoop2.6.0):spark-submit--masteryarn-client--driver-memory4g--executor-memory2g--executor-cores4--classorg.apache.spark.examples.SparkPi/home/john/spark/spark-1.6.1-bin-hadoop2.6/lib/spark-exa

windows - 在 yarn cluster (linux) : Error no sheme for Filesystem "C" 上从客户端 (windows) 执行 spark

我想将一个spark应用程序(只是一个简单的HelloWorld应用程序)部署到我的hadoop集群。在我的Windows机器上使用spark提交,我使用--masteryarn在客户端模式下执行应用程序。连接到hadoop集群是成功的,在集群上的日志文件中可以看到。(hadoopconf文件已经从集群下载下来,保存在客户端windows机器上,环境变量已经设置好)。使用hadoop2.7和spark1.6这是使用的spark-submit命令:>spark-submit--masteryarn--class"SimpleApp"..\..\SimpleApp\target\scala

xml - 在配置 hadoop 时启动 yarn 服务时出现错误

启动yarn守护进程,启动资源管理器,记录到/opt/hadoop/logs/yarn-root-resourcemanager-Web.out[FatalError]yarn-site.xml:24:1:Theend-tagforelementtype"property"mustendwitha'>'delimiter.localhost:startingnodemanager,loggingto/opt/hadoop/logs/yarn-root-nodemanager-Web.outlocalhost:Error:Couldnotfindorloadmainclassorg.ap

hadoop - 如何为 Hadoop YARN ResourceManager 和 ApplicationTimeline 启用 GC 日志记录,同时防止日志文件覆盖和限制磁盘空间使用

我们最近决定在多个集群(具体版本各不相同)上为HadoopYARNResourceManager和ApplicationTimeline服务器启用GC日志记录,以帮助调查与YARN相关的内存和垃圾收集问题。这样做时,我们想避免两个我们知道可能会发生的问题:当YARNRM或AT服务器因任何原因重启时覆盖日志文件日志使用过多的磁盘空间,导致磁盘被填满当为进程启动JavaGC日志记录时,它似乎会替换任何具有相同名称的文件的内容。这意味着除非您小心,否则您将丢失GC日志记录,也许在您更有可能需要它的时候。如果您让集群运行足够长的时间,日志文件将填满磁盘,除非进行管理。即使GC日志记录目前不是很

apache - 由于 YARN 的旋转 hadoop 连接问题导致 SQOOP 1 导入缓慢

我正在通过包括sqoop1.4.6的Cloudera5.8.0使用Hive/Hadoop/Sqoop。我的Hadoop集群有4个Hadoop数据节点,每个节点有16GB内存,并且都在运行ImpalaDaemons和YarnNodeManagers。Yarn服务器与Hue、Hive和Sqoop2一起在具有32GBRAM(具有多种角色)的服务器上运行。使用Sqoop从MySQL数据库导入(从使用Sqoop1的主服务器通过bash脚本导入到增量作业中的parquetfile格式),即使导入只有200行(甚至30行)的表,它似乎也很慢(平均50秒)在一种情况下)。即使在Ubermode中,它也

hadoop - Spark-SQL 在 yarn-cluster 上的错误 hdfs 权限

我有一个简单的工作,就是通过sparksql在hdfs中读取hive。我首先在yarn-client模式下运行它,我没有遇到任何问题。几次之后,我开始通过yarn-cluster模式启动它,但我遇到了这个问题:我有这个hdfs权限错误:Causedby:MetaException(message:org.apache.hadoop.security.AccessControlException:Permissiondenied:user=yarn,access=EXECUTE,inode="/Projects/SNB/directory/Private/table/table_ORC"