JOB_SUBID

hadoop - 从 Hadoop Job Tracker Web 界面访问 EMR 任务日志

我已经为我的主/从节点打开了EC2安全组，这样我就可以从我的本地浏览器访问作业跟踪器界面。我使用http://MASTER-IP:9100连接到它。一切正常，直到我尝试从任务详细信息访问任务跟踪器日志-http://ec2-xx-xx-xx-xx.compute-1.amazonaws.com:9100/taskdetails.jsp?tipid=task_201212181113_0001_m_000000我得到的链接指向内部EC2IP地址，因此我无法从我的本地计算机访问它们(链接为http://10.116.xxx.xx:9103/tasklog?attemptid=attempt

C#-运行Hadoop_job-报错(C#)

当我从本地计算机运行Mapreducer作业时出现以下错误。NullObjectCannotbeconvertedtoavaluetypeonthefollowingline:varresult=hadoop.MapReduceJob.ExecuteJob(); 最佳答案我在另一个hadoop项目上遇到了同样的错误，我认为映射器类中某处存在异常，所以只在映射器方法中使用trycatch并开始工作。关于C#-运行Hadoop_job-报错(C#)，我们在StackOverflow上找到

C#Hadoop_job section 射器时出 hadoop mapreduce

hadoop - Mesos 和 Hadoop : How to get the running job input data size?

我在Mesos0.14上运行Hadoop1.2.1。我的目标是记录输入数据大小、运行时间、cpu使用情况、内存使用情况等，以便稍后进行优化。除了数据大小之外，所有这些都是使用Sigar获得的。有什么方法可以获取正在运行的任何作业的输入数据大小？例如，当我运行hadoop示例的terasort时，我需要在作业实际运行之前获取teragen生成的数据大小。如果我正在运行Wordcountexample，我需要获取wordcount输入文件大小。我需要自动获取数据大小，因为我无法知道稍后将在该框架内运行什么作业。我正在使用Java编写一些mesos库代码。最好，我想在MesosExecuto

running hadoop section strong mapreduce mesos

hadoop - 通过 Oozie HDP 2.1 的作业不创建 job.splitmetainfo

当尝试执行一个sqoop作业时，我的Hadoop程序在-jarFiles参数中作为jar文件传递，执行失败并出现以下错误。似乎没有任何解决方案。具有相同Hadoop用户的其他作业正在成功执行。org.apache.hadoop.yarn.exceptions.YarnRuntimeException:java.io.FileNotFoundException:Filedoesnotexist:hdfs://sandbox.hortonworks.com:8020/user/root/.staging/job_1423050964699_0003/job.splitmetainfoa

splitmetainfo hadoop apache java mapreduce sqoop oozie hortonworks-data-platform

java - 如果 mapred.job.reuse.jvm.num.tasks 设置为 -1，则 hadoop 集群中每个节点启动了多少个 jvm

我最近看到了hadoop的mapred.job.reuse.jvm.num.tasks属性。默认情况下，它设置为+1，这意味着每个map/reduce任务都会启动一个新的JVM。相反，如果它设置为-1，那么一个jvm可以被无限数量的任务使用。在这种情况下，任务依次执行以使用相同的JVM。因此，当该属性设置为+1时，每个节点启动的JVM数量等于任务数量。没有混淆....但是，我的具体问题是，如果我将mapred.job.reuse.jvm.num.tasks设置为-1，每个节点将启动多少个JVM。每个节点只有一个JVM吗？还是别的？最佳答案

jvm hadoop section java

java - Job提交前如何分发jar到hadoop

我想实现RESTAPI来提交Hadoop作业以供执行。这完全是通过Java代码完成的。如果我编译一个jar文件并通过“hadoop-jar”执行它，一切都会按预期进行。但是当我在我的RESTAPI中通过Java代码提交Hadoop作业时-作业已提交但由于ClassNotFoundException而失败。是否可以以某种方式将jar文件(使用我的作业代码)部署到hadoop(nodemanagers及其容器)，以便hadoop能够按类名定位jar文件？我应该将jar文件复制到每个节点管理器并在那里设置HADOOP_CLASSPATH吗？最佳答案

分发 hadoop section jar java mapreduce hadoop-yarn

hadoop - Spark 流 "ERROR JobScheduler: error in job generator"

我构建了一个sparkStreaming应用程序来持续接收来自Kafka的消息，然后将它们写入表HBase。此应用在前25分钟内运行良好。当我在Kafka-console-producer中输入1;name1,2;name2这样的KV对时，它们可以保存在Hbase表中:ROWCOLUMN+CELL1column=cf1:column-Name,timestamp=1471905340560,value=name12column=cf1:column-Name,timestamp=1471905348165,value=name2但是大约25分钟后，我的应用停止并出现错误ERRORJob

JobScheduler amp apache JobGenerator streaming hadoop apache-spark apache-kafka spark-streaming

scala - 卡夫卡+ Spark 流: Multi topic processing in single job

Kafka中有40个主题和编写的SparkStreaming作业，每个主题处理5个表。sparkstreaming作业的唯一目标是读取5个kafka主题并将其写入相应的5个hdfs路径。大多数时候它工作正常，但有时它会将主题1数据写入其他hdfs路径。下面的代码试图归档一个sparkstreaming作业来处理5个主题并将其写入相应的hdfs，但是这个将主题1数据写入HDFS5而不是HDFS1。请提供您的建议:importjava.text.SimpleDateFormatimportorg.apache.kafka.common.serialization.StringDeseria

卡夫 processing 34 kafka section scala hadoop apache-spark apache-kafka spark-streaming

hadoop - Hadoop job怎么会自己kill掉

有什么方法可以终止Hadoop作业本身或发送信号来终止它。我已经从jobConf中读取了配置设置，它说如果用户指定了错误的设置我需要终止作业或抛出错误，因为map/reduceconfig方法不允许抛出异常.publicvoidconfigure(JobConfjob){System.out.println("Insideconfigstartprocessing");try{StringstrFileName=job.get("hadoop.rules");LoadFile(strFileName);}catch(Exceptione){e.printStackTrace();//H

hadoop section strong stackoverflow

hadoop - (Sqoop-import) 错误 tool.ImportTool : Encountered IOException running import job: java. io.IOException:Hive 以状态 9 退出

当我输入命令时:./sqoop-import--connectjdbc:mysql://localhost/sqoop2-tablesqeep2-m1-hive-import当执行这条命令时:hadoop@dewi:/opt/sqoop/bin$./sqoop-import--connectjdbc:mysql://localhost/sqoop2-tablesqeep2-m1-hive-import12/06/2010:00:44INFOtool.BaseSqoopTool:UsingHive-specificdelimitersforoutput.Youcanoverride12/

IOException import INFO JobClient mapred hadoop hive sqoop

32 33 343536 37 38