custom-application

hadoop - Spark over Yarn - 不正确的 Application Master 选择

我正在尝试使用以下命令在Yarn上使用Spark触发一些作业(这只是一个示例，实际上我使用的是不同数量的内存和内核):./bin/spark-submit--classorg.mypack.myapp\--masteryarn-cluster\--num-executors3\--driver-memory4g\--executor-memory2g\--executor-cores1\lib/myapp.jar\当我查看WebUI以查看幕后真正发生的事情时，我注意到YARN正在选择一个不是SparkMaster的节点作为ApplicationMaster。这是一个问题，因为真正的Sp

不正 Application Spark Master section hadoop apache-spark hadoop-yarn

apache-spark - 如何使用 APPLICATION ID 提交 YARN 作业

我想知道YARNCLI是否提供了使用上一次执行生成的APPLICATION_ID重新提交YARN应用程序的可能性。例子:/opt/mapr/spark/spark-2.1.0/bin/spark-submit--num-executors5--executor-memory2G--executor-cores2--masteryarn--deploy-modecluster--files/opt/mapr/hive/hive-2.1/conf/hive-site.xml--classcom.cisco.sdp.cdx.processing.DenormSchedulerJSONDeno

apache-spark APPLICATION section APPLICATION_ID hadoop hadoop-yarn

hadoop - 选择 : Hadoop custom jars, Hadoop Streaming、Pig 或 Mahout 中的哪一个？

我正在从事一个NLP项目，该项目可以创建实体集并计算大型语料库的成对相似性。目前我正在使用hadoopstreaming并在Python中实现了所有映射器和缩减器。由于算法需要多轮map-reduce，我使用Shell脚本来链接作业。现在这是我的顾虑和我接下来想做的事情:[问题1]。作业链和作业控制。链接hadoop流作业是有问题的。如果作业序列(job1-job2-job3)中的作业2失败，我必须手动删除输出文件夹，调整启Action业的脚本文件并从中间重新运行作业序列。我真的希望找到一种更聪明的方法来做到这一点。由于我需要经常调整算法的参数和逻辑，我不想一次又一次地重复这些步骤。[

Hadoop Streaming strong section 自定 mapreduce apache-pig mahout hadoop-streaming

hadoop - pig-avro : how to customize the way, avrostorage 加载文件

我有一个要求，我们需要自定义使用avrostorage在pig中加载文件的方式:例如，我有一个具有以下架构的avro文件:{"namespace":"avroColorCount","type":"record","name":"User2","fields":[{"name":"name","type":"string"},{"name":"content","type":"bytes"}]}现在如果我使用下面的命令它工作正常:x=load'sample.avro'USINGAvroStorage()AS(name:chararray,content:bytearray);但是，如果

avrostorage customize 34 section code hadoop apache-pig avro

xml - Spark master 不调用 Custom InputFormat

我正在尝试探索ApacheSpark，作为其中的一部分，我想自定义InputFormat。就我而言，我想阅读xml文件并转换每次出现的到新记录。我确实写了定制TextInputFormat(XMLRecordInputFormat.java)返回自定义**XMLRecordReaderextendsorg.apache.hadoop.mapreduce.RecordReader**但我不明白为什么Sparkmaster不调用自定义输入格式(XMLRecordInputFormat.class)？由于某种原因，它继续表现得像普通的分线器。代码如下:importjava.util.Iter

InputFormat Custom import apache hadoop xml apache-spark

hadoop - 在 YARN 集群的特定节点上运行我自己的 application master

首先，我使用的是Hadoop-2.6.0。我想在YARN集群中的特定节点上启动我自己的appmaster，以便在预定的IP地址和端口上打开服务器。为此，我编写了一个驱动程序，在其中创建了一个ResourceRequest对象并调用了setResourceName方法来设置主机名，并将其附加到ApplicationSubmissionContext对象通过调用setAMContainerResourceRequest方法。我尝试了几次，但无法在特定节点上启动AppMaster。搜索代码后，我发现RMAppAttemptImpl使我在ResourceRequest中设置的内容无效，如下所示

application hadoop strong ResourceRequest containers hadoop-yarn

java - ChainReducer.setReducer 方法抛出错误 "ChainReducer is not applicable for the arguments"

我有两个映射器类。所以使用ChainMapper.addMapper方法添加Mapper，使用ChainReducer.setReducer方法设置Reducer。ChainMapper.addMapper方法正常但是Chain.setReducer方法抛出语法错误ThemethodsetReducer(Job,Class,Class,Class,Class,Class,Configuration)inthetypeChainReducerisnotapplicableforthearguments(JobConf,Class,Class,Class,Class,Class,boole

ChainReducer applicable class LongWritable apache java hadoop mapreduce hdfs

hadoop - 运行 YARN 应用程序时获取 "User [dr.who] is not authorized to view the logs for application <AppID>"

我在HDP2.5集群中使用ApacheTwill运行自定义Yarn应用程序，但是当我转到我的容器网页时，我无法看到我自己的容器日志(syslog、stderr和stdout):当我导航到此页面时，登录名也从我的kerberos更改为“dr.who”。但是我可以看到map-reduce作业的日志。Hadoop版本为2.7.3，集群启用了yarnacl。最佳答案我在使用hadoopui时遇到了这个问题。我在this中找到doc，hadoop.http.staticuser.user默认设置为dr.who，您需要将其包含在相关设置文件

amp application section hadoop noreferrer mapreduce hadoop-yarn hadoop2 apache-twill

hadoop - yarn 中的 "Application priority"

我正在使用Hadoop2.9.0。是否可以在YARN中提交具有不同优先级的作业？根据一些JIRA票据，应用程序优先级似乎已经实现。我尝试使用YarnClient，并在提交作业之前为ApplicationSubmissionContext设置优先级。我还尝试使用CLI和updateApplicationPriority。但是，应用程序优先级似乎没有任何变化，它始终保持为0。我是否误解了YARN的ApplicationPriority概念？我看到了一些关于设置队列优先级的文档，但对于我的用例，我需要一个队列中的所有作业。将不胜感激任何对我的理解的澄清，或对我可能做错了什么的建议。谢谢。

Application amp gt lt hadoop hadoop-yarn

java - Hbase 映射减少 : how to use custom class as value for the mapper and/or reducer?

我正在尝试熟悉Hadoop/HbaseMapReduce作业，以便能够正确编写它们。现在我有一个Hbase实例，其中包含一个名为dns的表，其中包含一些DNS记录。我试图制作一个简单的唯一域计数器来输出文件并且它有效。现在，我只使用IntWritable或Text，我想知道是否可以为我的Mapper/Reducer使用自定义对象。我试着自己做，但我得到了Error:java.io.IOException:Initializationofallthecollectorsfailed.Errorinlastcollectorwas:nullatorg.apache.hadoop.mapre

reducer custom code MapTask IntWritable java hadoop mapreduce hbase

144 145 146147148 149 150