Hadoop2_草庐IT

java - 一个 Mapper 类 Hadoop 中的多个输入文件？

所以，我正在尝试在MapReduce范例中编写FP-Tree算法，对于创建频繁项集列表，我有以下问题:输入:File1.txt(包含所有交易)1234522211245769877776123354[EachLinecontainsitemsBoughtinoneTransaction]File2.txt(包含按降序购买的元素)1212362215774354[Count][ItemId]输出:output.txt12322112377354[2ndtransactioniseliminated]根据计数的项目被采纳(降序)，其他被删除是否可以将File1.txt和File2.txt都

maven - 在 Windows 8 上构建 Hadoop 2.6 时出错

我正在按照教程构建和安装hadoop。http://www.srccodes.com/p/article/38/build-install-configure-run-apache-hadoop-2.2.0-microsoft-windows-os但是，当我在VS2010命令提示符下输入以下命令时:mvnpackage-Pdist,native-win-DskipTests-Dtar我收到以下错误:main:[mkdir]SkippingC:\hdfs\hadoop-hdfs-project\hadoop-hdfs\target\nativebecauseitalreadyexists

时出 Windows hadoop INFO SKIPPED maven build windows-8.1

eclipse - java.lang.NoClassDefFoundError : org/apache/commons/logging/LogFactory in Hadoop 1. 2.1 Kmean算法

我尝试从http://codingwiththomas.blogspot.kr/2011/05/k-means-clustering-with-mapreduce.html但是有错误log4j:WARNErrorduringdefaultinitializationjava.lang.NoClassDefFoundError:org/apache/log4j/AppenderSkeletonatjava.lang.ClassLoader.findBootstrapClass(NativeMethod)atjava.lang.ClassLoader.findBootstrapClassO

NoClassDefFoundError LogFactory java new Vector eclipse hadoop

apache - Hadoop 客户端无法连接到服务器

我设置了一个2节点Hadoop集群，运行start-df.sh和start-yarn.sh运行良好(即所有预期的服务都在运行，日志中没有错误)。但是，当我实际尝试运行一个应用程序时，有几个任务失败了:15/04/0115:27:53INFOmapreduce.Job:TaskId:attempt_1427894767376_0001_m_000008_2,Status:FAILED我检查了yarn和datanode日志，但那里没有任何报告。在userlogs中，slave节点上的syslogs文件都包含如下错误信息:2015-04-0115:27:21,077INFO[main]org

apache Hadoop code section blockquote mapreduce

hadoop - Hive 查询性能调优

我是hadoop和hive的新手。您能否建议在cloudera5.2.1上运行的ApacheHive是否有任何性能调整步骤。为了提高Hive查询性能，调整参数是什么配置单元版本:-配置单元0.13.1-cdh5.2.1hive查询:-选择不同的a1.chain_numberchain_number,a1.chain_description链条描述来自staff.organization_hierarchya1;Hive表创建为外部表，选项为“STOREDASTEXTFORMAT”，表属性如下:-更改以下配置单元设置后，我们看到了10秒的改进设置hive.exec.parallel=tr

hadoop Hive section 配置单 code query-optimization

hadoop - 为什么 hadoop yarn mapreduce 作业不工作并停止运行作业？

我有一个mapreduce作业，我用YARN模式运行它。但是为什么我的mapreduce作业在运行作业步骤时停止而不继续？是这样的:15/04/0417:18:21INFOimpl.YarnClientImpl:Submittedapplicationapplication_1428142358448_000215/04/0417:18:21INFOmapreduce.Job:Theurltotrackthejob:http://master:8088/proxy/application_1428142358448_0002/15/04/0417:18:21INFOmapreduce.

hadoop mapreduce section 1428142358448 memory jobs hadoop-yarn

hadoop - pig 加入两个关系只与加入伙伴

我是PigLatin编程的新手，我有一个问题。假设我有以下两个关系(A和B):RelationA:http://i.stack.imgur.com/Aa5Rd.pngRelationB:http://i.stack.imgur.com/m467q.png现在，应该加入关系，但前提是A中存在键(id)。否则不会。所以结果应该是这样的:关系结果:i.stack.imgur.com/3elgh.png(我不能发布超过2个链接)我该如何解决？我的方法result=JOINABYid,BBYid;因为它创建了与所有id和文本的结果关系:/非常感谢您，斯特凡诺斯最佳答

hadoop pig strong code section join duplicates apache-pig

hadoop - 从其他 PC 下载 Hadoop 数据

我在一台PC上安装了Hadoopv2.6，运行的是UbuntuOS14.04。我使用Hadoop-put命令将大量非结构化数据添加到HDFS。谁能告诉我如何使用Hadoop提供的Web用户界面从另一台不在Hadoop集群中的PC下载这些数据？我可以在浏览器地址栏输入其他PC的数据(HDFS服务器的IP地址):端口号像这样:192.168.x.x:50070问题是，我无法下载数据，因为它给出错误“网页不可用”。我也试过其他浏览器，但还是不行。最佳答案端口50070是默认名称节点端口。您应该尝试端口14000，这是默认的HttpFS

hadoop section strong hdfs remote-access

hadoop - 在 MapReduce 中写入多个 O/P 文件时出现问题

我需要根据过滤条件将我的输入文件拆分为2个输出文件。我的输出目录应如下所示:/hdfs/base/dir/matched/YYYY/MM/DD/hdfs/base/dir/notmatched/YYYY/MM/DD我正在使用MultipleOutputs类在我的map函数中拆分我的数据。在我的驱动程序类中，我使用如下:FileOutputFormat.setOutputPath(job,newPath("/hdfs/base/dir"));我在下面使用的Mapper中:mos.write(key,value,fileName);//FileNameisgeneratingbasedon

时出 MapReduce code section pre hadoop multipleoutputs

hadoop - 连接异常 : Connection refused when run mapreduce in Hadoop

我在多机模式下设置了Hadoop(2.6.0):1个名称节点+3个数据节点。当我使用命令:start-all.sh时，它们(名称节点、数据节点、资源管理器、节点管理器)工作正常。我用jps命令检查了它，每个节点上的结果如下:名称节点:7300ResourceManager6942NameNode7154SecondaryNameNode数据节点:3840DataNode3924NodeManager我还在HDFS上上传了示例文本文件:/user/hadoop/data/sample.txt。那一刻绝对没有错误。但是当我尝试使用hadoop示例的jar运行mapreduce时:hadoo

Connection mapreduce hadoop gt lt resourcemanager connection-refused