作业队_草庐IT

hadoop - 如何在能够读取原始输入的同时在 Hadoop 中链接作业

我想链接3轮MapReduce，在第三轮能够读取原始输入以及第二个作业的输出。这有可能吗？最佳答案您可以将最后一个作业设置为使用2个映射器，其中一个可以将原始文件作为输入。假设您需要减少某些公共(public)键的输入(第一份工作的输入和第二份工作的输出)。MultipleInputs 关于hadoop-如何在能够读取原始输入的同时在Hadoop中链接作业，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.

何在能够 section hadoop MultipleInputs chain

hadoop - Sqoop 无法识别导入作业命令中的 --query 参数

我正在尝试将数据从mssql服务器导出到配置单元。我正在使用以下命令将数据从用户表导出到配置单元。sqoopimport--connect"jdbc:sqlserver://{ip}\LOCAL_INSTANCE;database=TEST_DB;user=sa;password=****"--table"Users_Table"--create-hive-table--hive-tableusers_export--target-dir/cdc/export/users--append--query"select*fromUsers_Table"我收到以下错误消息。至少，您必须指定-

hadoop Sqoop strong section query sqoop2

java - hadoop - 我们可以在完成 mapreduce 作业后检查状态多长时间？

我有3个mapreduce作业要并行执行，因此，我做了这样的事情Job[]job=newJob[3];...job[0].submit();job[1].submit();job[2].submit();因此，为了检查所有作业是否成功，我对这3个作业进行了一些轮询。booleanisAllFinished=false;while(!isAllFinished){for(inti=0;i>"+job[i].isComplete());isAllFinished=isAllFinished&job[i].isComplete();}Thread.sleep(1000);}虽然，这产生了积极

多长 mapreduce code job section java hadoop

hadoop - 级联 2.0.0 作业在 hadoop FileNotFoundException job.split 上失败

当我在更大的数据集上运行我的作业时，许多映射器/缩减器失败导致整个作业崩溃。这是我在许多映射器上看到的错误:java.io.FileNotFoundException:Filedoesnotexist:/mnt/var/lib/hadoop/tmp/mapred/staging/hadoop/.staging/job_201405050818_0001/job.splitatorg.apache.hadoop.hdfs.DFSClient$DFSInputStream.openInfo(DFSClient.java:1933)atorg.apache.hadoop.hdfs.DFSCl

hadoop FileNotFoundException apache mapred cascading

RHadoop 作业在单节点 Ubuntu 集群上失败

我第二次发布类似的问题，因为我相信我现在对这个问题有了更准确的看法。环境:Hadoop2.2.0在Ubuntu14.04笔记本电脑上作为单节点集群运行。RStudio版本0.98.507，R版本3.0.2(2013-09-25)，Java版本1.7.0_55任何R(或Python)程序都可以与位于/usr/local/hadoop220/share/hadoop/tools/lib/hadoop-streaming-2.2.0.jar的HadoopStreaming实用程序完美配合当我们使用包“rmr”(RHadoop的一部分)并从RStudio中运行的R程序内部调用mapreduce

RHadoop Ubuntu hadoop java apache r

hadoop - 通过 oozie 进行 Sqoop 作业

我创建了一个名为TeamMemsImportJob的sqoop作业，它基本上将数据从sqlserver拉入hive。我可以通过运行以下命令通过unix命令行执行sqoop作业:sqoopjob–execTeamMemsImportJob如果我创建一个oozie作业，其中包含实际的scoopimport命令，它可以正常运行。但是，如果我创建oozie作业并通过它运行sqoop作业，我会收到以下错误:ooziejob-configTeamMemsImportJob.properties-run>>>InvokingSqoopcommandlinenow>>>4273[main]WARNor

hadoop Sqoop TeamMemsImportJob code oozie hortonworks-data-platform

hadoop - 在 Pail Tap Hadoop 作业中为输入指定多个文件夹

我正在使用CascalogAPI运行hadoopmapreduce作业。我想使用多个输入文件夹来处理mapreduce作业。我在HDFSrooPath/Folder_1和rootPath/Folder_2中有两个文件夹，其中包含要在作业中处理的文件。我通过PailTap功能为工作提供输入文件夹:newPailTap(rootPath+"Folder_1",JcascalogUtils.getPailTapOptions());我可以为同一个作业分配多个文件夹吗？我可以给一个正则表达式fodler路径，比如rootPath+*/以便它处理rootPath文件夹中的所有文件夹。感谢您的帮助

hadoop rootPath section getPailTapOptions input mapreduce hdfs bigdata

hadoop - 使用 keytab 提交 oozie 作业

我正在使用keytab文件绕过kerberos以通过oozie运行shell脚本。Shell脚本包括hbaseshell命令，因此我需要在运行hbaseshell命令之前执行kinit。这对我来说很好。因此，如果我使用协调器启Action业并在使用keytab(服务帐户)的工作流中有多个shell脚本，oozie中是否会发生冲突？因为我使用oozie协调器启Action业但有keytab服务帐户工作流程中的文件。谢谢，最佳答案 key表文件需要存在于所有hadoop数据节点上。当作为oozie作业/映射任务运行时，您的shell脚

hadoop keytab section 协调器 hbase kerberos oozie

java - 编写一个空的 MapReduce 作业

我想写一个空的mapreduce作业，实际上我的意思是一个什么都不做的mapreduce作业，只有一个Mapper，一个Reducer和一个主类。我想要它在hortonwoks沙箱2.1中进行测试。这是我的代码:importjava.io.IOException;importjava.util.*;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.conf.*;importorg.apache.hadoop.io.*;importorg.apache.hadoop.mapred.*;importorg.apache.hado

MapReduce 编写 IntWritable Text class java hadoop hortonworks-data-platform

hadoop - 运行 Spark 作业时出现奇怪的错误

我正在运行一个有80台机器的spark集群。每台机器都是一个8核，50GB内存的虚拟机(41似乎是Spark可用的)。我在几个输入文件夹上运行，我估计输入的大小约为250GBgz压缩。我在驱动程序日志中收到错误信息，我不知道该怎么做。示例(按照它们在日志中出现的顺序):240884[Resultresolverthread-0]WARNorg.apache.spark.scheduler.TaskSetManager-Losttask445.0instage1.0(TID445,hadoop-w-59.c.taboola-qa-01.internal):java.net.SocketT

时出 hadoop java scala apache bigdata apache-spark google-hadoop