草庐IT

mapReduce

全部标签

java - 一个 Mapper 类 Hadoop 中的多个输入文件?

所以,我正在尝试在MapReduce范例中编写FP-Tree算法,对于创建频繁项集列表,我有以下问题:输入:File1.txt(包含所有交易)1234522211245769877776123354[EachLinecontainsitemsBoughtinoneTransaction]File2.txt(包含按降序购买的元素)1212362215774354[Count][ItemId]输出:output.txt12322112377354[2ndtransactioniseliminated]根据计数的项目被采纳(降序),其他被删除是否可以将File1.txt和File2.txt都

apache - Hadoop 客户端无法连接到服务器

我设置了一个2节点Hadoop集群,运行start-df.sh和start-yarn.sh运行良好(即所有预期的服务都在运行,日志中没有错误)。但是,当我实际尝试运行一个应用程序时,有几个任务失败了:15/04/0115:27:53INFOmapreduce.Job:TaskId:attempt_1427894767376_0001_m_000008_2,Status:FAILED我检查了yarn和datanode日志,但那里没有任何报告。在userlogs中,slave节点上的syslogs文件都包含如下错误信息:2015-04-0115:27:21,077INFO[main]org

hadoop - 为什么 hadoop yarn mapreduce 作业不工作并停止运行作业?

我有一个mapreduce作业,我用YARN模式运行它。但是为什么我的mapreduce作业在运行作业步骤时停止而不继续?是这样的:15/04/0417:18:21INFOimpl.YarnClientImpl:Submittedapplicationapplication_1428142358448_000215/04/0417:18:21INFOmapreduce.Job:Theurltotrackthejob:http://master:8088/proxy/application_1428142358448_0002/15/04/0417:18:21INFOmapreduce.

java - 两个 map 缩减作业并将每个作业的缩减值加入一个包含两个值的列表

我正在编写一个MapReduce程序,要求我找到一个节点(000-999)的入站和出站链接数,本质上是一个网络图形处理器。我需要返回一个特定的节点作为键,每个文档的出度和入度作为值。例如,示例文本文件:000002001002002000001000应该返回:000120012000212按照我的逻辑,似乎我需要创建两个mapreduce作业,第一个传入一个值为节点对(例如000002)的LongWritable键,计算每个节点的出站链接数并在reducer阶段结束时返回类似(0001)的内容。然后我将通过翻转节点对(例如000002变为002000)并找到那些出站链接的计数(在上面的

hadoop - 在 MapReduce 中写入多个 O/P 文件时出现问题

我需要根据过滤条件将我的输入文件拆分为2个输出文件。我的输出目录应如下所示:/hdfs/base/dir/matched/YYYY/MM/DD/hdfs/base/dir/notmatched/YYYY/MM/DD我正在使用MultipleOutputs类在我的map函数中拆分我的数据。在我的驱动程序类中,我使用如下:FileOutputFormat.setOutputPath(job,newPath("/hdfs/base/dir"));我在下面使用的Mapper中:mos.write(key,value,fileName);//FileNameisgeneratingbasedon

hadoop - 连接异常 : Connection refused when run mapreduce in Hadoop

我在多机模式下设置了Hadoop(2.6.0):1个名称节点+3个数据节点。当我使用命令:start-all.sh时,它们(名称节点、数据节点、资源管理器、节点管理器)工作正常。我用jps命令检查了它,每个节点上的结果如下:名称节点:7300ResourceManager6942NameNode7154SecondaryNameNode数据节点:3840DataNode3924NodeManager我还在HDFS上上传了示例文本文件:/user/hadoop/data/sample.txt。那一刻绝对没有错误。但是当我尝试使用hadoop示例的jar运行mapreduce时:hadoo

hadoop - sqoop hadoop-mapreduce 不存在

我在sqoop上运行导入命令,但遇到以下问题。有人可以帮我解决这个问题吗。错误:/usr/local/sqoop-1.4.5.bin__hadoop-2.0.4-alpha/bin/../../hadoop-mapreduce不存在!请将$HADOOP_MAPRED_HOME设置为您的HadoopMapReduce安装的根目录。我的bashrc:exportJAVA_HOME=$(/usr/libexec/java_home)exportHADOOP_HOME=/usr/local/Cellar/hadoop/2.6.0/libexecexportHADOOP_YARN_HOME=$H

hadoop - 许多输入文件到 SINGLE 映射。哈多普。如何?

如何对多个输入文件只使用一张map?因为Hadoop为一个文件创建了一个映射器。对于所有文件,我只需要一个映射器。我尝试使用CombineFileInputFormat。它有一个映射器,但映射输入只包含一个文件。我需要该输入映射值来包含来自所有文件(文本格式)的数据,如下所示:输入map值:datafromfile1.txtdatafromfile2.txtdatafromfile3.txtpublicclassWholeFileInputFormatextendsCombineFileInputFormat{publicWholeFileInputFormat(){super();s

sorting - hadoop 排序比较器类有什么用?

我已经实现了hadoop排序比较器类来对我的键进行排序。我知道它用来比较每个键。但是,我不知道它如何详细工作?如果用来比较,是真的吗?谢谢大家.... 最佳答案 比如说,你的key是(Attribute1,Attribute2)。现在您可以使用排序比较器,首先按Attribute1排序,然后按Attribute2排序。例如,Key=(2008,32)//year,temperature现在,如果你想按年份排序,然后按温度排序,你可以使用排序比较器,如下所示:publicstaticclassKeyComparatorextendsW

hadoop - 如何使用远程hadoop集群

我部署了一个Hadoop集群,客户端MapReduce程序运行在另一台机器上。我该如何使用该集群? 最佳答案 如果您在客户端机器上安装了jars,请在该机器上安装hadoop-client包,并在conf文件夹中包含集群的配置详细信息,以便您可以将作业从客户端机器触发到远程集群 关于hadoop-如何使用远程hadoop集群,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/2985