草庐IT

MapReduce2

全部标签

hadoop - 使用不同的 hadoop-mapreduce-client-core.jar 运行 hadoop 集群

我在安装了CDH4.2.0的hadoop集群上工作并遇到了this错误。它已在更高版本的hadoop中得到修复,但我无权更新集群。有没有办法告诉hadoop在通过命令行参数运行我的工作时使用这个jarhadoopjarMyJob.jar-Dhadoop.mapreduce.client=hadoop-mapreduce-client-core-2.0.0-cdh4.2.0.jar新的mapreduce-client-core.jar文件是票证中的补丁jar。或者必须用这个新的jar完全重新编译hadoop?我是hadoop的新手,所以我不知道所有可能的命令行选项。

hadoop - 如何过滤hadoop mapreduce中文件的记录值?

我正在使用MapReduce中的程序。我有两个文件,我想从file1中删除file2中存在的一些信息。每行都有一个ID作为其键和一些数字(以逗号分隔)作为其值。file1:11,2,1022,7,8,533,9,12和file2:1122,533,9我想要这样的输出:output:12,1027,8312我想删除file1的值,这些值在file2中具有相同的键。一种方法是将这两个文件作为输入文件,并在映射步骤中生成:(ID,line)。然后在减少步骤中过滤值。但是,我的文件非常非常大,因此我不能这样做。或者,如果file1是输入文件并且在map中我打开file2并查找该行然后比较值是否

hadoop - mapreduce 中的 NativeIO chmod "ENOTDIR"异常

我发现mapreduce作业似乎由于RawLocalFileSystem中的某些问题而无法启动。我该如何调试这个错误?似乎没有与NativeIOchmod异常关联的目录或命令的踪迹。当然,一个选项是使用自定义RawLocalFileSystem实现将jar捆绑到我的类路径中,但这似乎有点矫枉过正。13/07/1118:39:43错误安全性。用户组信息:PriviledgedActionException为:根本原因:ENOTDIR:不是目录ENOTDIR:不是目录在org.apache.hadoop.io.nativeio.NativeIO.chmod(native方法)在org.ap

java - 处理 Hadoop mapreduce 中键之间值的不均匀分布

我正在处理hadoop中的输入日志文件,其中的键分布不均匀。这意味着reducer的值分布不均匀。例如key1有1个值,key2有1000个值。有什么方法可以对与同一键关联的值进行负载平衡[我也不想修改我的键] 最佳答案 如果您知道哪些键将具有异常大量的值,您可以使用以下技巧。您可以实现自定义Partitioner这将确保您的每个倾斜key都进入一个分区,然后所有其他内容将通过它们的hashCode分发到其余分区。(这是默认的HashPartitioner所做的)。您可以创建自定义Partitioner通过实现这个接口(interf

hadoop - Nutch : org. apache.hadoop.mapreduce.lib.input.InvalidInputException: 输入路径不存在

当我执行nutch命令创建crawdb文件夹和内容时:soporte@CNEOSYLAP/usr/local/apache-nutch-2.2.1/runtime/local$bin/nutchcrawlurls-dircrawl-depth3-topN5我收到这个错误:InjectorJob:Usingclassorg.apache.gora.hbase.store.HBaseStoreastheGorastorageclass.Exceptioninthread"main"org.apache.hadoop.mapreduce.lib.input.InvalidInputExcep

在 MapReduce 中排序产生额外的值

我正在尝试按以下顺序对一系列整数进行排序:A2B9C4........Z42Mapper和Reducer代码如下:publicstaticclassMapClassextendsMapReduceBaseimplementsMapper{publicvoidmap(Textkey,Textvalue,OutputCollectoroutput,Reporterreporter)throwsIOException{output.collect(newIntWritable(Integer.parseInt(value.toString())),key);}}publicstaticcla

hadoop - 加入 MapReduce

在阅读hadoopinactionbook时,我遇到了几个关于减少连接的类,其中一些是DataJoinMapperBase、TaggedMapOutput、DataJoinReducerBase。但是当我通过谷歌搜索hadoop上的连接概念时,它们都不是基于上述指定的类。相反,它们正在实现自己的逻辑,并且许多是基于MultipleInputs。现在我的问题是在hadoop上哪种连接方法更好?可以做些什么来获得更好的结果?对此有什么建议吗? 最佳答案 你可以试试Pangool库,它使reducesidejoins变得非常容易。Map端

hadoop - Cloudera Hadoop MapReduce 错误 : Task process exit with nonzero status of 65

我有PentahoMapReduce作业(基本上是Java作业),它将HBase数据作为map输入。工作流非常适合少量数据(例如100行数据),但在几十万条记录上运行时会失败。两个映射器作业被提交到集群,它们正在做简单的数据聚合(大约400000行在两个HBase区域中分开)。它接缝任务无法在600秒内报告其状态,这是由mapred-site.xml中的mapred.task.timeout设置规定的。我不确定如何在Hadoop的Cloudera4.1.4发行版中更改此设置?同样在以下错误日志中,您可以看到一些其他错误:MetaVERSION="1".JobJOBID="job_201

java - 如何通过 Hadoop mapreduce 使用集中资源

人们似乎非常热衷于将现有应用程序迁移到Hadoop基础架构,并且在许多公司或组织中似乎有一句口头禅:如果您有大量数据,请使用Hadoop。我想了解现有解决方案对集中式(大)数据的依赖性如何影响Hadoop是否是一个好的解决方案的决策。在许多情况下,典型的“大数据”应用程序想要处理数十亿个事物,例如尽可能高效快速地处理文档、消息、文件。我看到了以map/reduce方式在多个节点之间分配工作的优势。然而,通常情况下,为了能够处理这些东西,处理函数(映射器)必须在某处查找东西。例如,向SQL服务器发送查询、在图形数据库中查找内容、在巨大的键/值存储中查找数据。此外,每个函数可能需要大量内存

java - 从远程系统提交 mapreduce 作业时出现异常

我在从远程系统提交mapreduce作业时遇到异常13/10/2818:49:52ERRORsecurity.UserGroupInformation:PriviledgedActionExceptionas:rootcause:org.apache.hadoop.mapred.InvalidInputException:Inputpathdoesnotexist:file:/F:/Workspaces/Test/Hadoop/test我的hadoop和mapreduce环境是在linux机器上配置的。我从本地WindowsPC提交wordcount作业,如下所示:publicstat