作业队_草庐IT

hadoop - YARN REST API - Spark 作业提交

我正在尝试使用YARNRESTAPI提交spark-submit作业，我通常通过命令行运行它。我的命令行spark-submit看起来像这样JAVA_HOME=/usr/local/java7/HADOOP_CONF_DIR=/etc/hadoop/conf/usr/local/spark-1.5/bin/spark-submit\--driver-class-path"/etc/hadoop/conf"\--classMySparkJob\--masteryarn-cluster\--conf"spark.executor.extraClassPath=/usr/local/hado

使用 Mxnet 的 Hadoop 流作业在 AWS Emr 中失败

我在AWS数据管道中设置了一个emr步骤。步骤命令如下所示:/usr/lib/hadoop-mapreduce/hadoop-streaming.jar,-input,s3n://input-bucket/input-file,-output,s3://output/output-dir,-mapper,/bin/cat,-reducer,reducer.py,-file,/scripts/reducer.py,-file,/params/parameters.bin我收到以下错误Error:java.lang.RuntimeException:PipeMapRed.waitOutpu

Hadoop 作业在由 yarn (MRv2) 或 mapred (MRv1) 以外的用户提交时失败

我正在运行一个运行MRv1(CDH5)与LocalFileSystem配对的测试集群，我唯一能够运行作业的用户是mapred(因为mapred是启动jobtracker/tasktracker守护进程的用户)。当以任何其他用户提交作业时，作业失败，因为jobtracker/tasktracker无法在.staging目录下找到job.jar。当YARN(MRv2)与LocalFileSystem配对时，我遇到了完全相同的问题，即当由“yarn”以外的用户提交作业时，应用程序主管无法在.staging目录下找到job.jar。查看提交作业的用户的.staging目录，发现.staging

hadoop - 具有多个输入参数的 Amazon EMR 作业

在Amazon数据管道中，我正在创建使用Hive将S3复制到EMR的事件。为了实现它，我必须将两个输入参数作为一个步骤传递给EMR作业。我搜索了几乎所有数据管道文档，但没有找到指定多个输入参数的方法。我也和AWS支持团队谈过，但他们也不清楚。他们建议的方法/技巧也不起作用。下面是我的步骤参数和Hive查询。如果有人有实现它的想法，请告诉我。步骤:s3://us-east-1.elasticmapreduce/libs/script-runner/script-runner.jar,s3://us-east-1.elasticmapreduce/libs/hive/hive-script

hadoop - Oozie 作业停留在 PREP 状态下的 START 操作

我有一个从Java客户端启动的Oozie作业，它卡在START操作中，它说它正在运行，但START节点处于PREP状态。这是为什么以及如何解决这个问题？Oozie工作流只包含一个java操作。集群上的Hadoop版本是2.4.0，集群上的Oozie是4.0.0。这是workflow.xml${jobTracker}${nameNode}mapred.job.queue.namedefaulttestingoozieclient.ClientJavafailed,errormessage[${wf:errorMessage(wf:lastErrorNode())}]这是java客户端Oo

hadoop - 是否可以在 Hadoop Mapreduce 中为单个作业打印 Mapper 和 reducer 输出

对于给定的MR作业，我需要生成两个输出文件。一个文件应该是Mapper的输出另一个文件应该是Reducer的输出(它只是上面Mapper的聚合)我能否将mapper和reducer输出都写在一个作业中？编辑:在作业1中(仅Mapper阶段)输出包含单行中的20个字段，必须将其写入hdfs(file1)。在Job2(Mappernreducer)中，Mapper从Job1的输出中获取输入，删除几个字段以使其成为标准格式(仅10个字段)并将其传递给写入file2的reducer。我需要hdfs中的file1和file2...现在我的疑问是，在Job1映射器中，我是否可以将数据作为file1

hadoop - 您如何设置具有不同批处理持续时间的多个 Spark Streaming 作业？

我们正处于转换大型企业当前数据架构的开始阶段，我目前正在构建一个SparkStreamingETL框架，我们将在其中将所有源连接到目的地(源/目的地可以是Kafka主题、Flume、HDFS等)通过转换。这看起来像:SparkStreamingEtlManager.addEtl(源、转换*、目标)SparkStreamingEtlManager.streamEtl()streamingContext.start()假设是，因为我们应该只有一个SparkContext，所以我们将在一个应用程序/jar中部署所有ETL管道。问题在于batchDuration是上下文本身的属性，而不是Rec

scala - Apache Spark - spark 中的内部作业调度程序如何定义用户和池

我很抱歉在这里有点笼统，但我对作业调度在spark中的内部工作方式有点困惑。来自文档here我知道这是HadoopFairScheduler的某种实现。我无法理解这里的用户到底是谁(是linux用户、hadoop用户还是spark客户端？)。我也无法理解这里的池是如何定义的。例如，在我的hadoop集群中，我将资源分配给了两个不同的池(我们称它们为团队1和团队2)。但是在sparkcluster中，不同的pool和里面的user不会实例化自己的sparkcontext吗？这再次让我质疑，当我将属性设置为spark.scheduler.pool时，我传递了哪些参数。我基本了解驱动程序如何

java - 初始作业没有接受任何资源；检查您的集群 UI 以确保工作人员已注册并拥有足够的资源

我正在尝试从Eclipse运行spark示例并收到此一般错误:Initialjobhasnotacceptedanyresources;检查您的集群UI以确保工作人员已注册并拥有足够的资源。我的版本是spark-1.6.2-bin-hadoop2.6.我使用./sbin/start-master.sh命令启动了spark一个shell，然后像这样设置我的sparkConf:SparkConfconf=newSparkConf().setAppName("SimpleApplication");conf.setMaster("spark://My-Mac-mini.local:7077"

java - 为简单的 hadoop mapreduce 作业运行两个 mapper 和两个 reducer

我只是想更好地理解使用多个映射器和缩减器。我想使用一个简单的hadoopmapreduce字数统计作业来尝试这个。我想为这个字数统计作业运行两个映射器和两个缩减器。有吗我需要在配置文件上手动配置，还是仅对WordCount.java文件进行更改就足够了。我在单个节点上运行这个作业。我正在运行这个作业$hadoopjarjob.jarinputoutput我已经开始了$hadoopnamenode-format$hadoopnamenode$hadoopdatanodesbin$./yarn-daemon.sh启动资源管理器sbin$./yarn-daemon.sh启动资源管理器I'mr