草庐IT

GLOBAL_MAP

全部标签

java - Hadoop MapReduce 作业启动但找不到 Map 类?

我的MapReduce应用计算Hive表中字段值的使用情况。在包含来自/usr/lib/hadood、/usr/lib/hive和/usr/lib/的所有jar后,我设法从Eclipse构建并运行它hcatalog目录。它有效。经过多次挫折后,我也设法将其编译并作为Maven项目运行:4.0.0com.bigdata.hadoopFieldCountsjarFieldCounts0.0.1-SNAPSHOThttp://maven.apache.orgUTF-8junitjunit3.8.1testorg.apache.hadoophadoop-client2.3.0org.apach

algorithm - 使用 Map Reduce 的深度优先搜索

我已经在HadoopMapReduce(BreathFirstSearch)中成功实现了最短路径算法。但是我有一个问题:是否可以使用Hadoopmapreduce进行图形遍历“深度优先搜索”?任何链接..? 最佳答案 深度优先搜索的性质使其不适用于mapreduce作业。因为在进入另一条路径之前,您只遵循一条严格的路径。这导致您无法正确使用hadoop提供的可伸缩性。我不知道有什么好的工作实现,而且我很确定您不会找到一个以良好方式使用MapReduce范例的实现。如果您尝试自己在hadoop中实现图形算法,您可能想看看一些有用的框架

eclipse - "Not A Valid Jar"尝试运行 Map Reduce 作业时

我试图通过从eclipse构建一个jar来运行我的MapReduce作业,但是在尝试执行该作业时,我收到“不是有效的Jar”错误。我尝试点击链接NotavalidJar但这没有帮助。任何人都可以给我有关如何从eclipse构建jar以使其在Hadoop上运行的说明。我知道从eclipse构建Jar文件的过程,但是我不确定,我是否需要特别注意构建jar文件,以便它在Hadoop上运行。 最佳答案 当您提交命令时,请确保您有以下内容来执行命令:当您指示jar时,请确保您正确指向jar。使用绝对路径可能最容易确定。要获取绝对路径,如果您导

java - spark map 方法抛出序列化异常

我是Spark的新手,我在map函数中遇到序列化问题。这是代码的一些元素privateFunctionSparkMap()throwsIOException{returnnewFunction(){publicStringcall(Rowrow)throwsIOException{/*somecode*/}};}publicstaticvoidmain(String[]args)throwsException{MyClassmyClass=newMyClass();SQLContextsqlContext=newSQLContext(sc);DataFramedf=sqlContext

java - map reduce 有两个输入文件,一个文件基于另一个文件处理

我需要编写一个将输入作为两个输入文件的mapreduce。第一个输入文件如下所示:key1,25key1,35key1,60key2,30key3,45key3,65第二个输入文件如下:key1,-10key2,-20key3,-15我需要得到如下输出:key1,15key1,25key1,50key2,10key3,30key3,50(输出是第一个输入文件的值减去第二个输入文件的值)这怎么可能?mapper和reducer任务会是什么样子?我的做法如下:我想我必须有两个映射器,每个输入文件一个(一个映射器可以用来读取两个文件吗?)。映射器将简单地发出键和值。在reducer端,当我收

java - Hadoop Map-Reduce 并行执行 3 个 Mappers 并输出到 1 个 reducer

我有一个要求,我必须根据每个数据集的不同标准过滤3个不同的数据集,最后将它们联合起来并将它们聚合到一个reducer中。我有一个执行作业的Pig脚本,其中数据集的过滤按顺序发生。我想知道是否有可能为每个数据集并行运行Mappers,并将输出发送到1个reducer类。 最佳答案 尝试使用MultipleInputs和3个映射器来处理3个数据集。请参阅此链接以获取MultipleInputs的API-https://hadoop.apache.org/docs/stable/api/org/apache/hadoop/mapreduc

java - Hadoop 上次 map 作业卡住 - 需要帮助

我正在使用hadoopmap-reduce作业进行一些文本处理。我的工作已完成99.2%,并停留在上一个map工作上。map输出的最后几行如下所示。上次发生此问题时,我尝试打印出从map发出的键值,并注意到其中一个键具有大量与之关联的值,我认为它在对这些值进行排序时似乎卡住了。然后,我停止从map作业中发出该键,它工作正常。我想,同样的问题又发生了,打印出键值对是一项乏味的工作,因为这项工作很费时间。有更好的选择吗?如果他们在排序上花费太多时间,就像配置hadoop忘记几个键一样。有没有这样的。2010-10-2014:43:32,274INFOorg.apache.hadoop.ma

【C++进阶04】STL中map、set、multimap、multiset的介绍及使用

一、关联式容器vector/list/deque…这些容器统称为序列式容器因为其底层为线性序列的数据结构里面存储的是元素本身map/set…这些容器统称为关联式容器关联式容器也是用来存储数据的与序列式容器不同的是其里面存储的是结构的键值对在数据检索时比序列式容器效率更高二、键值对“键值对”用来表示具有一一对应关系的一种结构该结构中一般只包含两个成员变量key和valuekey代表键值,value表示与key对应的信息比如:现在要建立一个英汉互译的字典那该字典中必然有英文单词与其对应的中文含义而且,英文单词与其中文含义是一一对应的关系即通过该应该单词,在词典中就可以找到与其对应的中文含义SGI-

file - 多个小文件作为 map reduce 的输入

我有很多小文件,比如说20000多个。我想节省花在映射器初始化上的时间,那么是否可以只使用500个映射器,每个处理40个小文件作为其输入?如果可能的话,我需要有关如何实现这种输入格式的指导,谢谢!顺便说一句,我知道我应该合并这些小文件,这一步也是需要的。 最佳答案 可以使用CombineFileInputFormat。它在old中和new先生API。这是一个不错的blogentry关于如何使用它。 关于file-多个小文件作为mapreduce的输入,我们在StackOverflow上找

hadoop - Map 和 Reduce 是否在单独的 JVM 中运行?

您好,我有一个MapReduce任务,例如AverageScoreCalculator,它具有映射器和缩减器。问题是我静态初始化AverageScoreCalculator中的几个字段是否对映射器和缩减器都可用? 最佳答案 默认情况下,每个map和reduce任务都在不同的JVM中运行,并且可以有多个JVM在节点上的任何特定实例上运行。设置以下属性mapred.job.reuse.jvm.num.tasks=-1mapreduce.tasktracker.map.tasks.maximum=1mapreduce.tasktracke