reduced_bitmap

hadoop - 在没有 map 和 reduce 的情况下使用 Spark 进行顺序的逐行处理

我正在研究Spark作为一种可能的计算工具，但无法找到我想到的用例示例。我想做的与map和reduce有点相反(至少在第一步)，这可能使Spark成为这项工作的错误工具，所以在我忽略它之前，我想在这里检查是否有人有一些好主意，如果这个可以做到。数据流看起来像这样:想法是将一个巨大的表格结构作为输入，然后将其拆分到计算节点集群(它可以作为文本文件加载，也可以在数据库中)对于此输入结构中的每一行，都会有一个逻辑来对行的内容进行分类(例如，如果它是抵押贷款、经常账户或其他东西)分类后开始计算给定类别的分期付款。现在，问题来了——我不确定Spark是否可以执行这种计算:一个输入行可能会产生数百

hadoop - 即使在使用 yarn 运行时存在映射器，Map-reduce 作业也会出现 ClassNotFound 异常？

我正在运行一个hadoop作业，当我在伪分布式模式下不使用yarn运行它时它工作正常，但是当使用yarn运行时它给我类未找到异常16/03/2401:43:40INFOmapreduce.Job:TaskId:attempt_1458775953882_0002_m_000003_1,Status:FAILEDError:java.lang.RuntimeException:java.lang.ClassNotFoundException:Classcom.hadoop.keyword.count.ItemMappernotfoundatorg.apache.hadoop.conf.C

射器 ClassNotFound hadoop apache Configuration mapreduce

java - Hadoop map-reduce 操作在写入输出时失败

我终于能够在Hadoop上启动map-reduce作业(在一台debian机器上运行)。但是，mapreduce作业总是失败并出现以下错误:hadoopmachine@debian:~$./hadoop-1.0.1/bin/hadoopjarhadooptest/main.jarnl.mydomain.hadoop.debian.test.Main/user/hadoopmachine/input/user/hadoopmachine/outputWarning:$HADOOP_HOMEisdeprecated.12/04/0307:29:35WARNmapred.JobClient:

map-reduce Hadoop mapred hadoopmachine java mapreduce debian file-access

Hadoop - reducer 如何获取数据？

我知道映射器为每个reducer生成1个分区。reducer如何知道要复制哪个分区？假设有2个节点为字数统计程序运行mapper，并且配置了2个reducer。如果每个map节点产生2个分区，并且两个节点中的分区都可能包含相同的单词作为键，reducer将如何正常工作？例如:如果节点1产生分区1和分区2，分区1包含一个名为“WHO”的键。如果节点2产生分区3和分区4，分区3包含一个名为“WHO”的键。如果Partition1和Partition4进入reducer1(剩余部分进入reducer2)，reducer1如何计算正确的字数？如果这不可能，分区1和分区3将转到reducer1，

reducer Hadoop section partition

Hadoop:Reducer 将 Mapper 输出写入输出文件

我遇到了一个非常非常奇怪的问题。reducer确实可以工作，但是如果我检查输出文件，我只会找到映射器的输出。当我尝试调试时，在将映射器的输出值类型从Longwritable更改为Text后，我发现字数示例存在同样的问题packageorg.myorg;importjava.io.IOException;importjava.util.*;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.conf.*;importorg.apache.hadoop.io.*;importorg.apache.hadoop.mapreduc

Reducer Hadoop Text class JobClient mapreduce reduce

hadoop - 以不同用户身份运行 map reduce 作业

我有一个与Hadoop交互的Web应用程序。(Clouderacdh3u6)特定的用户操作应该在集群中启动一个新的MapReduce作业。该集群不是安全集群，但它使用简单的组身份验证-因此如果我以自己的身份通过ssh访问它，我可以从命令行启动MR作业。在Web应用程序中，我使用ToolRunner来运行我的作业:MyMapReduceWrapperClassmr=newMyMapReduceWrapperClass();ToolRunner.run(mr,null);//insidetherunimplementationofmywrapperclass:Jobjob=newJob(c

hadoop reduce code MyMapReduceWrapperClass section credentials

hadoop - 如何保证 combiner 在 map/reduce 中至少运行一次？

从一些文章中，我知道combiner会在mapper端和reducer端运行，并且会运行0~N次。而且我知道无论是否调用组合器，我们的mapreduce程序都应该得到相同的结果。但我有一种特殊情况需要组合器至少被调用一次，有人知道如何确保这一点吗？PS，在maptask.java中，我看到了这行:if(null==combinerClass||numSpills如果我将minSpillsForCombine设置为零，我能否确保组合器至少被调用一次？非常感谢! 最佳答案在溢出期间，在溢出线程写入磁盘之前，线程首先将数据分成分区，这些

combiner hadoop strong section li mapreduce

hadoop - 如何在 HDFS 中只保存非空 reducer 的输出

在我的应用程序中，reducer将所有part文件保存在HDFS中，但我希望reducer只写入大小不为0bytes的part文件。请告诉我如何定义它。最佳答案这是可能的-请参阅“惰性输出”的文档部分:http://hadoop.apache.org/mapreduce/docs/current/mapred_tutorial.html#Lazy+Output+Creationimportorg.apache.hadoop.mapreduce.lib.output.LazyOutputFormat;LazyOutputForma

何在 reducer section hadoop mapreduce reduce hdfs

hadoop - 在 Hadoop Map/Reduce 中为多个映射器配置 Map Side join

我有一个关于在Hadoop中为多个映射器配置Map/Side内部连接的问题。假设我有两个非常大的数据集A和B，我使用相同的分区和排序算法将它们拆分成更小的部分。对于A，假设我有a(1)到a(10)，对于B，我有b(1)到b(10)。确保a(1)和b(1)包含相同的key，a(2)和b(2)具有相同的key，依此类推。我想设置10个映射器，特别是映射器(1)到映射器(10)。据我了解，Map/Sidejoin是mapper之前的预处理任务，因此，我想为mapper(1)加入a(1)和b(1)，加入a(2)和b(2)对于mapper(2)，等等。看了一些引用资料，我还是不太清楚这十个map

射器 Map KeyValueTextInputFormat hadoop mapreduce inner-join

java - 如何将对象传递给 Mapper 和 reducers

我有一个在hadoop上运行的应用程序。如何将对象传递给映射器和缩减器以处理数据。例如，我声明了一个FieldFilter对象来过滤在映射器中处理的行。过滤器包含许多由用户指定的过滤规则。所以，我想知道如何将过滤器和规则传递给Mappers和Reducers？我的想法是将对象序列化为字符串，通过配置传递字符串，然后通过字符串重新构造对象。但是好像对我不好!还有其他方法吗？谢谢!publicclassFieldFilter{privatefinalArrayListrules=newArrayList();publicFieldFilteraddRule(FieldFilterRule.

象传递给 code section java hadoop

131 132 133134135 136 137