yarn-daemon_草庐IT

hadoop - 我应该在哪里寻找有关为什么 yarn 应用程序在 hadoop-2.5.2 中终止的详细异常信息

我现在正在通过Hadoop集群运行yarn应用程序。示例yarn应用的github地址为https://github.com/blrunner/yarn-beginners-examples但是，如果我提交申请，我可以看到如下日志ERRORexamples.MyClient:应用程序未能成功完成我应该在哪里查找有关应用程序为何因某种原因终止的详细异常信息？最佳答案当您从命令行启动YARN应用程序时，您通常会在命令行上获取跟踪URL。你也可以这样做:yarnapplication-list获取应用程序列表然后执行:yarnappl

hadoop - 用 yarn 进行星火聚类

我想用yarn做Spark聚类。我需要吗使用yarn配置安装hadoopmaster和slaves？分别安装hadoopmaster/slaves和yarnmaster/slaves？如果1没问题，我将使用这个docker镜像(link)。适合这个吗？最佳答案为了在yarn上运行spark，使用yarn配置安装hadoopmaster和slave就足够了，但是你还需要确保你下载的spark版本支持yarn。安装后，spark应该能够访问yarn配置，并且与yarn相关的所需jar文件也在spark路径中。

hadoop yarn section apache-spark docker

python - 在 Yarn 上运行 Spark 官方 python 机器学习示例失败

我可以通过以下方式在yarn上成功运行pi.py示例:./bin/spark-submit--masteryarn--deploy-modeclusterexamples/src/main/python/pi.py.但是当我运行./bin/spark-submit--masteryarn--deploy-modeclusterexamples/src/main/python/ml/logistic_regression_with_elastic_net.py时，失败了。错误消息:容器以非零退出代码1退出通过比较这两个文件，我发现在将frompyspark.ml.classificati

python Spark code section hadoop apache-spark machine-learning hadoop-yarn

hadoop - 为什么我无法连接到 yarn ？

我正在尝试通过yarnapplication-list连接到yarn。但我不能，因为它说:INFOclient.RMProxy:ConnectingtoResourceManagerat/0.0.0.0:8032INFOipc.Client:Retryingconnectingtoserver:0.0.0.0/0.0.0.0:8032.Alreadytried0time(s):retyrpolicyisRetryUpToMaximumCountWithFixedSleep(maxRetries=10,sleepTime=1000MILLISECONDS)INFOipc.Client:R

hadoop yarn code section hadoop-yarn

hadoop - 在 Spark-on-Yarn 中配置执行器和驱动程序内存

我对在Spark-1.5.2中配置执行程序和驱动程序内存感到困惑。我的环境设置如下:3NodeMAPRCluster-EachNode:Memory256G,16CPUHadoop2.7.0Spark1.5.2-Spark-on-Yarn输入数据信息:来自Hive的460GBParquet格式表我正在使用spark-sql通过spark-on-yarn查询hive上下文，但它比Hive慢很多，而且我不确定Spark的内存配置是否正确，这些是我的配置，exportSPARK_DAEMON_MEMORY=1gexportSPARK_WORKER_MEMORY=88gspark.execut

Spark-on-Yarn 驱动 spark section hadoop apache-spark apache-spark-sql mapr

hadoop - 如何减少 Hadoop Yarn Container 生成的日志量？

我正在使用Hadoop2.7.3，使用Yarn进行一些mapreduce。每个容器生成的日志都是天文数字。明显使用的级别是DEBUG。我想将日志级别提高到INFO。我的安装或多或少是默认安装。我尝试修改hadoop-yarn-server-nodemanager-*.jar中的container-log4j.properties，如https://community.hortonworks.com/questions/98259/hdp-250-how-to-override-default-container-log4j-in.html中所述但这没有帮助。我的每个容器的标准输出文件都

志量 Container hadoop metrics apache logging containers hadoop-yarn

apache-spark - 在 Yarn 上运行 Spark 直线

我正在使用直线执行hql查询。该作业似乎没有出现在HDP2.6上SparkHistory服务器的资源管理器中。如何让它运行在Yarn上？谢谢最佳答案 Beeline是一个ApacheHive客户端，与Spark无关，因此您不会在Spark历史服务器中看到查询。不过，查询应该在YARN中运行，如果您转到YARN资源管理器WebUI(如果您有权访问Ambari，应该在快速链接下)，您会在那里看到它们。关于apache-spark-在Yarn上运行Spark直线，我们在StackOverf

apache-spark apache section Spark 中运 hadoop apache-spark-sql hadoop-yarn

apache-spark - 如何增加在 Yarn UI 上显示的 "memory total"？

我在EMR(emr-5.20.0)上有一个集群，其中一个m5.2xlarge作为NodeMaster，两个m4.large作为core，三个m4.large作为nodeworker。该集群的内存内存总和为62GB，但在YARNUI中显示的总内存为30GB。有人可以帮助我了解这个值是如何计算的吗？我已经检查了Yarn-site.xml和spark-default.conf中的配置，它们是根据AWS推荐配置的:https://docs.aws.amazon.com/pt_br/emr/latest/ReleaseGuide/emr-hadoop-task-config.html#emr-h

apache-spark amp section emr config hadoop pyspark hadoop-yarn apache-zeppelin

java - 在 flink yarn 集群上通过 maven 运行包含配置的 Java Jar

我在maven/java项目中使用flink，需要在创建的jar中包含我的内部配置。因此，我在我的pom文件中添加了以下内容。这包括我在jar中的所有yml配置(位于src/main/resources文件夹中)，我将在执行时将其名称作为参数传递。src/main/resources**/*.ymlorg.apache.maven.pluginsmaven-shade-plugin2.4.3packageshade*:*META-INF/*.SFMETA-INF/*.DSAMETA-INF/*.RSA${project.artifactId}-${project.version}tru

flink maven java gt lt hadoop apache-flink hadoop-yarn

java - 使用 Thrift 运行 Hive Hook 时出现 YARN AM 容器错误

我正在构建一个工具，该工具需要我在HiveSemanticAnalyzer中运行MapReduce作业。当我运行处理启动Hive驱动程序的自定义Java程序时，MapReduce作业运行良好。但是，当我尝试通过修改HiveServer2和HiveJDBC(它可以很好地连接到我修改后的服务器)来执行Hook时，MapReduce作业失败并出现以下错误:Applicationapplication_1395851979242_0009failed2timesduetoAMContainerforappattempt_1395851979242_0009_000002exitedwithex

时出容器 java section apache hadoop mapreduce hive hadoop-yarn