YARN_OPTS

apache-spark - 在 Yarn 上运行 Spark 直线

我正在使用直线执行hql查询。该作业似乎没有出现在HDP2.6上SparkHistory服务器的资源管理器中。如何让它运行在Yarn上？谢谢最佳答案 Beeline是一个ApacheHive客户端，与Spark无关，因此您不会在Spark历史服务器中看到查询。不过，查询应该在YARN中运行，如果您转到YARN资源管理器WebUI(如果您有权访问Ambari，应该在快速链接下)，您会在那里看到它们。关于apache-spark-在Yarn上运行Spark直线，我们在StackOverf

apache-spark - 如何增加在 Yarn UI 上显示的 "memory total"？

我在EMR(emr-5.20.0)上有一个集群，其中一个m5.2xlarge作为NodeMaster，两个m4.large作为core，三个m4.large作为nodeworker。该集群的内存内存总和为62GB，但在YARNUI中显示的总内存为30GB。有人可以帮助我了解这个值是如何计算的吗？我已经检查了Yarn-site.xml和spark-default.conf中的配置，它们是根据AWS推荐配置的:https://docs.aws.amazon.com/pt_br/emr/latest/ReleaseGuide/emr-hadoop-task-config.html#emr-h

apache-spark amp section emr config hadoop pyspark hadoop-yarn apache-zeppelin

java - 在 flink yarn 集群上通过 maven 运行包含配置的 Java Jar

我在maven/java项目中使用flink，需要在创建的jar中包含我的内部配置。因此，我在我的pom文件中添加了以下内容。这包括我在jar中的所有yml配置(位于src/main/resources文件夹中)，我将在执行时将其名称作为参数传递。src/main/resources**/*.ymlorg.apache.maven.pluginsmaven-shade-plugin2.4.3packageshade*:*META-INF/*.SFMETA-INF/*.DSAMETA-INF/*.RSA${project.artifactId}-${project.version}tru

flink maven java gt lt hadoop apache-flink hadoop-yarn

java - 使用 Thrift 运行 Hive Hook 时出现 YARN AM 容器错误

我正在构建一个工具，该工具需要我在HiveSemanticAnalyzer中运行MapReduce作业。当我运行处理启动Hive驱动程序的自定义Java程序时，MapReduce作业运行良好。但是，当我尝试通过修改HiveServer2和HiveJDBC(它可以很好地连接到我修改后的服务器)来执行Hook时，MapReduce作业失败并出现以下错误:Applicationapplication_1395851979242_0009failed2timesduetoAMContainerforappattempt_1395851979242_0009_000002exitedwithex

时出容器 java section apache hadoop mapreduce hive hadoop-yarn

hadoop - Spring Yarn @OnContainerStart - 如何调用 Mapper？

我正在将SpringYarn包与SpringBoot一起使用，我正在尝试弄清楚如何从@OnContainerStart事件中启动Mapper。我如何将参数传递给映射器？我如何配置要使用的映射器/缩减器？我正在尝试关注thisguide谢谢最佳答案我相信您正在尝试创建一个简单的ApacheHadoopMapReduce应用程序，而SpringYARN并不适用于此。要使用Spring开发MapReduce作业，您可以查看我们的引用文档，可以从SpringforApacheHadoop找到它。SpringYARN是一个开发应用程序的框

OnContainerStart hadoop section Spring MapReduce spring-data-hadoop

hadoop - 如何为高优先级处理预留 yarn 容器 - pig jobs

我使用hadoop2.4.1和Yarn处理pig作业。我的一些Pig作业是高优先级的(它们应该在20分钟内运行)。我正在寻找PIG或YARN选项来为我的高优先级工作保留yarn容器。有办法吗？现在，我总是依赖于其他正在运行的作业，并且根据作业的大小，我的优先作业可能会等待数小时。谢谢，罗曼最佳答案您可以为此使用FairScheduler。FairScheduler将您的应用组织成“队列”，然后在这些队列之间公平地共享资源。除了提供公平共享外，它还允许为队列分配有保证的最小份额，这有助于确保某些队列始终获得足够的资源。您还可以为不

高优预留 hadoop section apache-pig hadoop-yarn

hadoop - 在 hadoop 2.4 中使用 yarn 在集群模式下运行 Spark 时出现 InvalidResourceRequestException Yarn Exception

使用Apachespark1.1.0和hadoop2.4另外，我的集群在CDH5.1.3上我尝试使用以下命令启动sparkwithyarn。./spark-shell--masteryarn./spark-shell--masteryarn-client我得到以下异常:14/10/1521:33:32INFOcluster.YarnClientSchedulerBackend:ApplicationreportfromASM:appMasterRpcPort:0appStartTime:1413388999108yarnAppState:RUNNING14/10/1521:33:44E

时出 hadoop apache java bigdata apache-spark hadoop-yarn

hadoop - yarn java进程没有被杀死

我已经安装了ApacheSamza，它使用Yarn来管理作业。它在虚拟机上的两个Debian服务器上运行。Samza是0.9.1版本。Hadoop的版本是2.6.0。我看到两个不同的问题，我不确定它们是否相关，但看起来Yarn都没有做它应该做的事情。当我尝试使用samza(kill-yarn-job.sh)提供的脚本终止作业时，我在Web界面中看到作业的状态从正在运行或已接受更改为已终止，但java进程仍在运行。很长一段时间后，杀死他们的唯一方法就是用艰难的方式做到这一点:kill-9。虽然我一直在更改yarn-site.xml的值，但我只能运行一个作业。我的机器有4Gb内存和4个cp

杀死 hadoop 1443613686881 0001 java hadoop-yarn apache-samza

hadoop - 报告平台应该选择 yarn-cluster 还是 yarn-client？

我打算做的是使用现有数据开发一个报告平台。我有一个包含大量记录的现有RDBMS。所以我在用。(Hadoop2.7,Spark,Hive,JasperReports,Scoop-Architecuture)Scoop-将数据从RDBMS提取到HadoopHadoop-存储平台Hive-数据仓库Spark-因为Hive更像是批处理Hive上的Spark会加快速度JasperReports-生成报告。鉴于我已经阅读了以下内容Whatisyarn-clientmodeinSpark?Differencebetweenyarn-clientmodeandyarn-clustermode我应该使用

yarn yarn-cluster section noreferrer hadoop apache-spark hadoop-yarn

java - 使用 Java API 查找提交 yarn 应用程序的用户

我需要使用Java获取在集群中提交Yarn应用的用户的详细信息。我可以使用CLI查看这些详细信息yarnapplication-list它给出了包含用户详细信息的作业详细信息列表。现在的需求是在访问集群中的某些文件之前，先找到提交当前正在运行的作业的用户，并授权给他。我该怎么做？欢迎任何有效的输入。最佳答案在yarn应用程序的情况下，yarn脚本使用org.apache.hadoop.yarn.client.cli.ApplicationCLI，所以获取源代码(在我的例子中是org.apache.hadoop:hadoop-ya

java code section yarn hadoop apache-spark hadoop-yarn

39 40 414243 44 45