作业队

java - 使用 HDFS 输入和 HBASE 输出的 hadoop map reduce 作业

我是hadoop的新手。我有一个MapReduce作业，它应该从Hdfs获取输入并将reducer的输出写入Hbase。我还没有找到任何好的例子。这是代码，运行这个例子的错误是Typemismatchinmap,expectedImmutableBytesWritablerecievedIntWritable.映射器类publicstaticclassAddValueMapperextendsMapper{/*input*output*/publicvoidmap(LongWritablekey,Textvalue,Contextcontext)throwsIOException,In

java - 由于 hive 查询错误导致 hadoop 作业出错

异常(exception):2017-06-2122:47:49,993FATALExecMapper(main):org.apache.hadoop.hive.ql.metadata.HiveException:HiveRuntimeErrorwhileprocessingwritableorg.apache.hadoop.dynamodb.DynamoDBItemWritable@2e17578fatorg.apache.hadoop.hive.ql.exec.MapOperator.process(MapOperator.java:643)atorg.apache.hadoop.

hadoop java code apache hive amazon-emr

hadoop - 我可以提交包含多个配置文件的 oozie 作业吗？

在OozieCLI中我想做这样的事情:ooziejob-ooziehttp://host:port/oozie-configjobConfig.properties,baseConfig.properties-submit我有很多不同的工作正在运行，其中.properties文件的一部分是相同的。我希望能够将重复的部分移动到一个单独的baseConfig.properties文件中，并在我提交作业时将其与特定于作业的部分结合起来。最佳答案如果被覆盖的属性数量很少，您可以只引用基础配置文件，然后为每个要自定义的属性使用-Dprop

hadoop oozie section code configuration-files

hadoop - 如何部署和运行 oozie 作业？

我正在尝试使用oozie做一个简单的工作。这将是一个简单的PigAction。我有一个文件:FirstScript.pig包含:dual=LOAD'default.dual'USINGorg.apache.hcatalog.pig.HCatLoader();storedualinto'dummy_file.txt'usingPigStorage();和一个workflow.xml包含:hadoop:50300hdfs://hadoop:8020/FirstScript.pigjobOK,message[${wf:errorMessage()}]joberror,errormessage

hadoop oozie gt lt name apache-pig

permissions - 运行作业时 Hadoop DFS 权限问题

我收到以下权限错误，我不确定为什么hadoop会尝试写入此特定文件夹:hadoopjar/usr/lib/hadoop/hadoop-*-examples.jarpi2100000NumberofMaps=2SamplesperMap=100000WroteinputforMap#0WroteinputforMap#1StartingJoborg.apache.hadoop.security.AccessControlException:org.apache.hadoop.security.AccessControlException:Permissiondenied:user=myu

permissions Hadoop section strong

hadoop - 在 yarn 中启动/停止 Spark 流作业的正确方法是什么？

我已经进行了很多小时的试验和谷歌搜索，但没有成功。我有一个在本地Spark集群中运行良好的SparkStreaming应用程序。现在我需要在cloudera5.4.4上部署它。我需要能够启动它，让它在后台持续运行，并且能够停止它。我试过这个:$spark-submit--masteryarn-cluster--classMyMainmy.jarmyArgs但它只是不停地打印这些行。15/07/2817:58:18INFOClient:Applicationreportforapplication_1438092860895_0012(state:RUNNING)15/07/2817:5

hadoop Spark strong code application apache-spark spark-streaming hadoop-yarn cloudera

hadoop - 在 hadoop 中并行运行作业

我是hadoop的新手。我已经设置了一个2节点集群。如何在hadoop中并行运行2个作业。当我提交作业时，它们会按照先进先出的顺序一个接一个地运行。我必须并行运行这些作业。如何实现。谢谢MRK 最佳答案 Hadoop可以配置多个调度器，默认是FIFO调度器。FIFOSchedule的行为是这样的。场景一:如果集群有10个MapTask容量，job1需要15个MapTask，那么运行job1就占用了整个集群。当job1取得进展并且有可用的空闲插槽未被job1使用时，job2将在集群上运行。场景二:如果集群有10个MapTask容量，j

hadoop 在 section job

Hadoop MapReduce 提供嵌套目录作为作业输入

我正在处理一个嵌套目录结构的工作，其中包含多个级别的文件:one/├──three/│ └──four/│ ├──baz.txt│ ├──bleh.txt│ └──foo.txt└──two/├──bar.txt└──gaa.txt当我添加one/作为输入路径时，没有文件被处理，因为没有文件在根级别立即可用。我阅读了有关job.addInputPathRecursively(..)的内容，但这在最近的版本中似乎已被弃用(我使用的是hadoop1.0.2)。我已经编写了一些代码来遍历文件夹并使用job.addInputPath(dir)添加每个目录，直到由于某种原因尝试将目录作为

MapReduce Hadoop code section strong nested directory-walk

hadoop - 如何写 'map only' hadoop 作业？

我是hadoop的新手，我对map-reduce编程的风格越来越熟悉，但现在我遇到了一个问题:有时我只需要一个工作的map，我只需要直接将map结果作为输出，这意味着这里不需要reduce阶段，我该如何实现？最佳答案这将关闭reducer。job.setNumReduceTasks(0);http://hadoop.apache.org/docs/current/api/org/apache/hadoop/mapreduce/Job.html#setNumReduceTasks(int)

hadoop amp section setNumReduceTasks mapreduce

hadoop - 使用 mapred 或 mapreduce 包来创建 Hadoop 作业哪个更好？

要创建MapReduce作业，您可以使用旧的org.apache.hadoop.mapred包或更新的org.apache.hadoop.mapreduce包用于Mappers和Reducers，乔布斯……第一个被标记为已弃用，但同时又被恢复了。现在我想知道使用旧的mapred包还是新的mapreduce包来创建作业更好，为什么。还是仅仅取决于您是否需要像MultipleTextOutputFormat这样的东西，它只在旧的mapred包中可用？最佳答案在功能方面，旧的(o.a.h.mapred)和新的(o.a.h.mapred

mapreduce hadoop section code noreferrer

207 208 209210211 212 213