作业组

hadoop - 并行 hadoop 作业不会通过

我正在运行一个本地hadoop集群并尝试同时提交两个作业，但我的第一个作业通过了，第二个没有，并且一直处于未分配状态，直到第一个作业完成。我预感内存有问题，但我不太明白。这是我为容器、映射器、reduce、jvm等设置的值。yarn.nodemanager.resource.memory-mb=40960yarn.scheduler.minimum-allocation-mb=4096yarn.scheduler.maximum-allocation-mb=10240mapreduce.map.java.opts=-Xmx5120mmapreduce.reduce.java.opts=

hadoop 并行 section mapreduce scheduler hadoop2

hadoop - 在 Oozie 中为 Map-Reduce 作业指定驱动程序

${jobTracker}${nameNode}mapred.input.dir${inputDir}mapred.output.dir${outputDir}mapred.job.queue.name${queueName}mapred.reduce.tasks${numberofReducers}mapred.reducer.new-apitruemapred.mapper.new-apitrueMap/Reducefailed,errormessage[${wf:errorMessage(wf:lastErrorNode())}]我正在尝试使用Oozie运行map-reduce作

Map-Reduce 驱动 lt gt property hadoop mapreduce oozie

hadoop - Oozie 仅在指定时间范围内运行作业

我需要从RDBMS系统中读取600TB的数据，而且我必须在从午夜12点到早上7点的特定时间范围内执行此操作。由于无法在一天内摄取全部数据，因此需要分批执行。oozie是否可以在早上7点之前终止作业并在第二天重新启动失败的作业。最佳答案 Oozie好像没有这个功能。我会尝试使用oozie-cli和cron终止并开始工作。关于hadoop-Oozie仅在指定时间范围内运行作业，我们在StackOverflow上找到一个类似的问题： https://stacko

hadoop Oozie section stackoverflow questions sqoop

java - 如何从 Mapreduce 作业查询存储在 hdfs 中的嵌入式数据库？

我正在尝试从HadoopMapReduce映射器查询GeoLite数据库以解析IP地址的国家/地区。我尝试了两种方法:1.使用File仅适用于本地文件系统，我收到一个文件未找到异常Filedatabase=newFile("hdfs://localhost:9000/input/GeoLite2-City.mmdb");//2.使用流，但在运行时出现此错误Error:JavaHeapSpacePathpt=newPath("hdfs://localhost:9000/input/GeoLite2-City.mmdb");FileSystemfs=FileSystem.get(newCo

Mapreduce java section DatabaseReader code hadoop geolocation hdfs

Hadoop 作业刚刚结束

我在使用Hadoop时遇到了一个相当奇怪的问题。我写了一个MR作业，它就这样结束了，没有执行map或reduce代码。它生成输出文件夹，但该文件夹是空的。我认为没有理由出现这种行为。我什至用默认的Mapper和Reducer来尝试这个，只是为了找到问题，但我没有发现异常，没有错误，作业刚刚完成并生成一个空文件夹。这是最简单的驱动程序:Configurationconf=newConfiguration();//DistributedCache.addCacheFile(newURI(firstPivotsInput),conf);JobpivotSelection=newJob(con

Hadoop 作业 pivotSelection code section mapreduce

hadoop - Oozie 作业在运行 hue 时由于 "not org.apache.hadoop.mapred.Mapper"而失败

我正在尝试通过oozie作业运行wordcount程序。当我像hadoopjarwordcoutjar/data.txt/out一样手动运行wordcoutjar时。它运行良好并给我输出。这是我的wordcount程序的映射器代码的详细信息。publicclassMapperWordcountextendsMapper{privatefinalstaticIntWritableone=newIntWritable(1);privateTextword=newText();publicvoidmap(LongWritablekey,Textvalue,Contextcontext)thr

hadoop amp apache java mapreduce oozie hue oozie-coordinator

hadoop - 何时使用压缩

问题在标题中——什么时候使用压缩比较好？好的，我的意思是处理速度更快。我的管道由多个MR作业组成，中间结果存储在序列文件中。数据是数字-时间序列。此外，碰巧一项工作的输出与输入的大小相同。因此，传输/存储的数据可能很大。我想知道我是否可以预期由于压缩而加速，或者压缩/解压缩数据需要更多时间？最佳答案使用快速编解码器(readsnappy)启用中间数据压缩几乎总是一个好主意。即使您的数据不可压缩，您也不会受到太多惩罚。关于hadoop-何时使用压缩，我们在StackOverflow上

何时 hadoop section stackoverflow 作业组 serialization compression

hadoop - 无效的作业 session 异常 : Output directory not set

我正在使用ClouderaVM进行mapreduce实践。我刚刚从cloudera提供的默认wordcount类创建了jar。我在运行mapreduce程序时遇到此错误。我能知道我错过了什么吗？InvalidJobConfException:Outputdirectorynotset.Exceptioninthread"main"org.apache.hadoop.mapred.InvalidJobConfException:Outputdirectorynotset. 最佳答案要使用MapReduce程序处理数据，您需要-映射器

directory session section Output hadoop mapreduce

hadoop - 如何在 mapreduce 作业中获得适当大小的输入拆分

我正在基于Hortonworks的MicrosoftHDInsight中处理Map-OnlyMR作业。我的输入数据约为1GB，block大小为128MB。当我在没有设置分割大小的情况下运行我的作业时，我的输入数据被分成2个分割，maptask的数量也是2。这需要很长时间，所以我想通过增加maptask的数量来加快这个过程。我通过设置mapreduce.input.fileinputformat.split.minsize和mapreduce.input.fileinputformat.split.minsize的值来设置分割数。首先，我将拆分次数设置为8，此作业耗时为35分钟。然后我设

何在 mapreduce section 射器的 hadoop azure-hdinsight

hadoop - MapReduce 作业失败，错误为写入数据失败

我正在尝试将数据从teradata导出到hadoop。但我的导出查询因出现错误“无法写入数据”而失败。请查看下面的Mapreduce和应用程序日志:LogType:syslogLogUploadTime:TueMar0822:59:27-08002016LogLength:49312016-03-0822:47:07,414WARN[main]org.apache.hadoop.metrics2.impl.MetricsConfig:Cannotlocateconfiguration:triedhadoop-metrics2-maptask.properties,hadoop-metr

MapReduce hadoop apache 1457504560070

38 39 404142 43 44