yarn-daemon_草庐IT

hadoop - Spring Yarn @OnContainerStart - 如何调用 Mapper？

我正在将SpringYarn包与SpringBoot一起使用，我正在尝试弄清楚如何从@OnContainerStart事件中启动Mapper。我如何将参数传递给映射器？我如何配置要使用的映射器/缩减器？我正在尝试关注thisguide谢谢最佳答案我相信您正在尝试创建一个简单的ApacheHadoopMapReduce应用程序，而SpringYARN并不适用于此。要使用Spring开发MapReduce作业，您可以查看我们的引用文档，可以从SpringforApacheHadoop找到它。SpringYARN是一个开发应用程序的框

hadoop - 如何为高优先级处理预留 yarn 容器 - pig jobs

我使用hadoop2.4.1和Yarn处理pig作业。我的一些Pig作业是高优先级的(它们应该在20分钟内运行)。我正在寻找PIG或YARN选项来为我的高优先级工作保留yarn容器。有办法吗？现在，我总是依赖于其他正在运行的作业，并且根据作业的大小，我的优先作业可能会等待数小时。谢谢，罗曼最佳答案您可以为此使用FairScheduler。FairScheduler将您的应用组织成“队列”，然后在这些队列之间公平地共享资源。除了提供公平共享外，它还允许为队列分配有保证的最小份额，这有助于确保某些队列始终获得足够的资源。您还可以为不

高优预留 hadoop section apache-pig hadoop-yarn

hadoop - 在 hadoop 2.4 中使用 yarn 在集群模式下运行 Spark 时出现 InvalidResourceRequestException Yarn Exception

使用Apachespark1.1.0和hadoop2.4另外，我的集群在CDH5.1.3上我尝试使用以下命令启动sparkwithyarn。./spark-shell--masteryarn./spark-shell--masteryarn-client我得到以下异常:14/10/1521:33:32INFOcluster.YarnClientSchedulerBackend:ApplicationreportfromASM:appMasterRpcPort:0appStartTime:1413388999108yarnAppState:RUNNING14/10/1521:33:44E

时出 hadoop apache java bigdata apache-spark hadoop-yarn

hadoop - yarn java进程没有被杀死

我已经安装了ApacheSamza，它使用Yarn来管理作业。它在虚拟机上的两个Debian服务器上运行。Samza是0.9.1版本。Hadoop的版本是2.6.0。我看到两个不同的问题，我不确定它们是否相关，但看起来Yarn都没有做它应该做的事情。当我尝试使用samza(kill-yarn-job.sh)提供的脚本终止作业时，我在Web界面中看到作业的状态从正在运行或已接受更改为已终止，但java进程仍在运行。很长一段时间后，杀死他们的唯一方法就是用艰难的方式做到这一点:kill-9。虽然我一直在更改yarn-site.xml的值，但我只能运行一个作业。我的机器有4Gb内存和4个cp

杀死 hadoop 1443613686881 0001 java hadoop-yarn apache-samza

hadoop - 报告平台应该选择 yarn-cluster 还是 yarn-client？

我打算做的是使用现有数据开发一个报告平台。我有一个包含大量记录的现有RDBMS。所以我在用。(Hadoop2.7,Spark,Hive,JasperReports,Scoop-Architecuture)Scoop-将数据从RDBMS提取到HadoopHadoop-存储平台Hive-数据仓库Spark-因为Hive更像是批处理Hive上的Spark会加快速度JasperReports-生成报告。鉴于我已经阅读了以下内容Whatisyarn-clientmodeinSpark?Differencebetweenyarn-clientmodeandyarn-clustermode我应该使用

yarn yarn-cluster section noreferrer hadoop apache-spark hadoop-yarn

java - 使用 Java API 查找提交 yarn 应用程序的用户

我需要使用Java获取在集群中提交Yarn应用的用户的详细信息。我可以使用CLI查看这些详细信息yarnapplication-list它给出了包含用户详细信息的作业详细信息列表。现在的需求是在访问集群中的某些文件之前，先找到提交当前正在运行的作业的用户，并授权给他。我该怎么做？欢迎任何有效的输入。最佳答案在yarn应用程序的情况下，yarn脚本使用org.apache.hadoop.yarn.client.cli.ApplicationCLI，所以获取源代码(在我的例子中是org.apache.hadoop:hadoop-ya

java code section yarn hadoop apache-spark hadoop-yarn

hadoop - 通过 bash 获取 yarn 资源管理器主机名

我试图通过bash在不同的节点中找到yarn资源管理器主机名。我发现它的唯一方法是键入任何yarn命令和grep/awk来获取它(xxx.xxx.xxx.xxx)。示例:yarnnode-list-allINFOimpl.TimelineClientImpl:Timelineserviceaddress:http://xxx.xxx.xxx.xxx:8188/ws/v1/timeline/16/03/1814:28:16INFOclient.RMProxy:ConnectingtoResourceManageratxxx.xxx.xxx.xxx/10.100.x.y:8050Total

hadoop bash section xxx blockquote hadoop-yarn

java - 如何通过 Yarn、Hadoop 提交 Spark scala 作业

我是Spark的新手，我正在尝试在伪分布式Hadoop系统上运行Scala作业。Hadoop2.6+Yarn+Spark1.6.1+scala2.10.6+JVM8，一切从头开始安装。我的Scala应用程序是简单的WordCount示例，我不知道错误是什么。/usr/local/sparkapps/WordCount/src/main/scala/com/mydomain/spark/wordcount/WordCount.scalapackagecom.mydomain.spark.wordcountimportorg.apache.spark.{SparkConf,SparkCon

Hadoop Spark SparkSubmit apache java scala apache-spark hadoop2

hadoop - 我是否需要将 Spark 与 YARN 结合使用才能通过 HDFS 实现 NODE LOCAL 数据局部性？

我是否需要将Spark与YARN结合使用才能通过HDFS实现NODELOCAL数据局部性？如果我使用Spark独立集群管理器并将我的数据分布在HDFS集群中，Spark如何知道数据位于本地节点上？最佳答案 YARN是一个资源管理器。它处理内存和进程，而不处理HDFS或数据局部性的工作。既然Spark可以从HDFS源中读取，并且名称节点和数据节点负责YARN之外的所有HDFSblock数据管理，那么我认为答案是否定的，您不需要YARN。但是您已经拥有HDFS，这意味着您拥有Hadoop，那么为什么不利用将Spark集成到YARN中呢

hadoop Spark section HDFS apache-spark

hadoop - 将作业提交到 YARN 集群的正确方法，其中作业依赖于外部 jar？

我试图了解将MR(就此而言，基于Java的Spark)作业提交到YARN集群的正确方法是什么。考虑以下情况:使用客户端机器开发代码(MR或Spark)作业，并说代码使用第3方jar。现在，当开发人员必须将作业提交到YARN集群时，将作业提交到集群的正确方法是什么，这样就不会出现未找到类的运行时异常。由于作业是作为jar文件提交的，开发人员如何“放置”第3方jar？我很难理解这一点，谁能帮助我理解这一点？最佳答案您必须使用Gradle或Maven简单地构建一个“fatjar子”，它不仅包含您编译的代码，还包含所有传递依赖项。您可以

交到 hadoop section noreferrer apache-spark hadoop-yarn hadoop2