草庐IT

作业队

全部标签

hadoop - 如何在能够读取原始输入的同时在 Hadoop 中链接作业

我想链接3轮MapReduce,在第三轮能够读取原始输入以及第二个作业的输出。这有可能吗? 最佳答案 您可以将最后一个作业设置为使用2个映射器,其中一个可以将原始文件作为输入。假设您需要减少某些公共(public)键的输入(第一份工作的输入和第二份工作的输出)。MultipleInputs 关于hadoop-如何在能够读取原始输入的同时在Hadoop中链接作业,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.

hadoop - Sqoop 无法识别导入作业命令中的 --query 参数

我正在尝试将数据从mssql服务器导出到配置单元。我正在使用以下命令将数据从用户表导出到配置单元。sqoopimport--connect"jdbc:sqlserver://{ip}\LOCAL_INSTANCE;database=TEST_DB;user=sa;password=****"--table"Users_Table"--create-hive-table--hive-tableusers_export--target-dir/cdc/export/users--append--query"select*fromUsers_Table"我收到以下错误消息。至少,您必须指定-

java - hadoop - 我们可以在完成 mapreduce 作业后检查状态多长时间?

我有3个mapreduce作业要并行执行,因此,我做了这样的事情Job[]job=newJob[3];...job[0].submit();job[1].submit();job[2].submit();因此,为了检查所有作业是否成功,我对这3个作业进行了一些轮询。booleanisAllFinished=false;while(!isAllFinished){for(inti=0;i>"+job[i].isComplete());isAllFinished=isAllFinished&job[i].isComplete();}Thread.sleep(1000);}虽然,这产生了积极

hadoop - 级联 2.0.0 作业在 hadoop FileNotFoundException job.split 上失败

当我在更大的数据集上运行我的作业时,许多映射器/缩减器失败导致整个作业崩溃。这是我在许多映射器上看到的错误:java.io.FileNotFoundException:Filedoesnotexist:/mnt/var/lib/hadoop/tmp/mapred/staging/hadoop/.staging/job_201405050818_0001/job.splitatorg.apache.hadoop.hdfs.DFSClient$DFSInputStream.openInfo(DFSClient.java:1933)atorg.apache.hadoop.hdfs.DFSCl

RHadoop 作业在单节点 Ubuntu 集群上失败

我第二次发布类似的问题,因为我相信我现在对这个问题有了更准确的看法。环境:Hadoop2.2.0在Ubuntu14.04笔记本电脑上作为单节点集群运行。RStudio版本0.98.507,R版本3.0.2(2013-09-25),Java版本1.7.0_55任何R(或Python)程序都可以与位于/usr/local/hadoop220/share/hadoop/tools/lib/hadoop-streaming-2.2.0.jar的HadoopStreaming实用程序完美配合当我们使用包“rmr”(RHadoop的一部分)并从RStudio中运行的R程序内部调用mapreduce

hadoop - 通过 oozie 进行 Sqoop 作业

我创建了一个名为TeamMemsImportJob的sqoop作业,它基本上将数据从sqlserver拉入hive。我可以通过运行以下命令通过unix命令行执行sqoop作业:sqoopjob–execTeamMemsImportJob如果我创建一个oozie作业,其中包含实际的scoopimport命令,它可以正常运行。但是,如果我创建oozie作业并通过它运行sqoop作业,我会收到以下错误:ooziejob-configTeamMemsImportJob.properties-run>>>InvokingSqoopcommandlinenow>>>4273[main]WARNor

hadoop - 在 Pail Tap Hadoop 作业中为输入指定多个文件夹

我正在使用CascalogAPI运行hadoopmapreduce作业。我想使用多个输入文件夹来处理mapreduce作业。我在HDFSrooPath/Folder_1和rootPath/Folder_2中有两个文件夹,其中包含要在作业中处理的文件。我通过PailTap功能为工作提供输入文件夹:newPailTap(rootPath+"Folder_1",JcascalogUtils.getPailTapOptions());我可以为同一个作业分配多个文件夹吗?我可以给一个正则表达式fodler路径,比如rootPath+*/以便它处理rootPath文件夹中的所有文件夹。感谢您的帮助

hadoop - 使用 keytab 提交 oozie 作业

我正在使用keytab文件绕过kerberos以通过oozie运行shell脚本。Shell脚本包括hbaseshell命令,因此我需要在运行hbaseshell命令之前执行kinit。这对我来说很好。因此,如果我使用协调器启Action业并在使用keytab(服务帐户)的工作流中有多个shell脚本,oozie中是否会发生冲突?因为我使用oozie协调器启Action业但有keytab服务帐户工作流程中的文件。谢谢, 最佳答案 key表文件需要存在于所有hadoop数据节点上。当作为oozie作业/映射任务运行时,您的shell脚

java - 编写一个空的 MapReduce 作业

我想写一个空的mapreduce作业,实际上我的意思是一个什么都不做的mapreduce作业,只有一个Mapper,一个Reducer和一个主类。我想要它在hortonwoks沙箱2.1中进行测试。这是我的代码:importjava.io.IOException;importjava.util.*;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.conf.*;importorg.apache.hadoop.io.*;importorg.apache.hadoop.mapred.*;importorg.apache.hado

hadoop - 运行 Spark 作业时出现奇怪的错误

我正在运行一个有80台机器的spark集群。每台机器都是一个8核,50GB内存的虚拟机(41似乎是Spark可用的)。我在几个输入文件夹上运行,我估计输入的大小约为250GBgz压缩。我在驱动程序日志中收到错误信息,我不知道该怎么做。示例(按照它们在日志中出现的顺序):240884[Resultresolverthread-0]WARNorg.apache.spark.scheduler.TaskSetManager-Losttask445.0instage1.0(TID445,hadoop-w-59.c.taboola-qa-01.internal):java.net.SocketT