草庐IT

map_region

全部标签

map - 分离 Hadoop Map 和 Reduce 任务

在一个3节点的hadoop集群中。我希望主人是1个节点。Map任务发生在一个节点,Reduce任务发生在1个节点。Map和reduce任务应该分开。可能吗?据我所知,两者一起运行。如果你能阐明一些观点,那就太好了。谢谢!-塞图 最佳答案 这不是最优的,因为必须始终将map输出复制到另一台服务器。但是您可以简单地在服务器上修改您的mapred-site.xml。mapred.tasktracker.map.tasks.maximum4Themaximumnumberofmaptasksthatwillberunsimultaneous

filesystems - IBM 通用并行文件系统 (GPFS) 是否支持 Map/Reduce 作业?

我正在研究各种分布式文件系统。IBM通用并行文件系统(GPFS)本身是否支持Map/Reduce作业?不使用第三方软件(如HadoopMap/reduce)?谢谢! 最佳答案 2009年,GPFS被扩展为与Hadoop无缝协作,成为GPFS-SharedNothingCluster架构,现在以GPFSFilePlacementOptimizer(FPO)的名义提供。如果应用程序需要,FPO允许完全控制所有副本的数据放置。当然,您可以轻松配置以匹配HDFS分配。查看详细信息http://publib.boulder.ibm.com/i

java - Hadoop - 为特定节点的 Mapper 中的每个 map() 函数创建类的单个实例

我在java中有一个类似这样的类用于hadoopMapReducepublicClassMyClass{publicstaticMyClassMapperextendsMapper{staticSomeClasssomeClassObj=newSomeClass();voidmap(ObjectKey,Textvalue,Contextcontext){StringsomeText=someClassObj.getSomeThing();}}}我只需要someClassObj的单个实例可用于map()函数每个节点。如何实现?如果您需要有关此主题的更多详细信息,请随时询问。谢谢!

map - 当发出配置中定义的类的子类作为输出时,Hadoop Map 输出 IOException

我有3个简单的类:publicabstractclassContainerimplementsWritableComparable{}//emptypublicclassWeightedEdgeextendsContainer{...}publicclassNodeWeightContainerextendsContainer{...}Map阶段是这样配置的JobConfcreateGraphPConf=newJobConf(newConfiguration());Jobjob=newJob(createGraphPConf);...createGraphPConf.setMapOut

hadoop - MapReduce 与 Hadoop : Type mismatch in key from map

我正在运行一个简单的wordcount程序,但出现以下错误:Typemismatchinkeyfrommap:expectedorg.apache.hadoop.io.Text,receivedorg.apache.hadoop.io.LongWritable这是什么意思,我该如何纠正? 最佳答案 您可以在主函数中使用以下任一行:conf.setMapOutputKeyClass(Text.class);conf.setMapOutputValueClass(IntWritable.class);假设您正在使用JobConfconf

java - Hadoop Map/Reduce Mapper 'map' 方法和日志

我最近被要求研究加速mapreduce项目。我正在尝试查看在实现以下类的“map”方法中生成的log4j日志信息:org.apache.hadoop.mapred.Mapper在这个类中有以下方法:@Overridepublicvoidconfigure(..){..}publicstaticvoiddoCompileAndAdd(..){..}publicvoidmap(..){..}记录信息可用于配置方法和doCompileAndAdd方法(从配置方法调用);但是,没有显示“map”方法的日志信息。我也试过在map方法中简单地使用System.out.println(..)但没有成

java - 用于时间序列数据的 Cassandra Map Reduce

如何从映射器中访问Cassandra列族?具体来说,如何将map()方法的参数转换回我期望的java类型?Key{logType}->{列名:timeUUID,列值:csvlogline,ttl:1year}感谢@Chris&@rs_atl我成功运行了hadoop作业,这里是完整的代码:packagecom.xxx.hadoop;importjava.io.IOException;importjava.nio.ByteBuffer;importjava.util.Iterator;importjava.util.SortedMap;importorg.apache.cassandra.

hadoop - 哪个类将 Hive & Ping 解析为 Map Reduce

哪个是将pig和hive命令解析为MapReduce作业的类,这种解析背后的算法是什么? 最佳答案 Pig和Hive都使用ANTLR构建一个编译器来解析他们的脚本。如果你对编译原理不熟悉,建议你阅读一些相关资料。对于Pig,ANLTR的源代码是src/org/apache/pig/parser/QueryLexer.g和src/org/apache/pig/parser/QueryParser.g。它们将被编译为org.apache.pig.parser.QueryLexer和org.apache.pig.parser.QueryP

Hadoop 映射器发出一个唯一的键。我可以在每个 map 之后执行 reducer 吗?

我的映射器发出'uniqkey'-'非常大的值(value)'对。我的reducer不知道key是唯一的。因此,reducer会等待所有映射器完成。我尝试使用组合器,但这对我来说不是一个简单的解决方案,因为我的reducer非常复杂。我的问题是如何在每个map之后执行reducer?不使用组合器。 最佳答案 如果您的key是唯一的,则无需减少它们。因此只需将reducer代码复制粘贴到mapper并将reducer编号设置为零。顺便说一句,有很多mapreduce作业不需要reduce步骤,所以这并不奇怪。

java - 从节点可以运行Hadoop Map/Reduce Job吗?

我在两个节点(主节点和从节点)上安装了Hadoop。我会问我是否可以从从机运行Map/Reduce作业或从从机使用HDFS。从主节点运行map/reduce作业没有问题,但是当我尝试从从节点运行Map/Reduce作业时,出现以下错误。Java.net.connectionException因连接异常而失败。 最佳答案 只要每个节点都配置了正确的jobtracker位置属性,您就可以从集群中的任何机器运行作业。事实上,您可以在任何机器上运行作业,包括您的个人台式机或笔记本电脑,只要您连接到服务器(也就是说,没有防火墙挡在您的路上)并