草庐IT

hadoop-release

全部标签

eclipse - java.lang.NoClassDefFoundError : org/apache/commons/logging/LogFactory in Hadoop 1. 2.1 Kmean算法

我尝试从http://codingwiththomas.blogspot.kr/2011/05/k-means-clustering-with-mapreduce.html但是有错误log4j:WARNErrorduringdefaultinitializationjava.lang.NoClassDefFoundError:org/apache/log4j/AppenderSkeletonatjava.lang.ClassLoader.findBootstrapClass(NativeMethod)atjava.lang.ClassLoader.findBootstrapClassO

apache - Hadoop 客户端无法连接到服务器

我设置了一个2节点Hadoop集群,运行start-df.sh和start-yarn.sh运行良好(即所有预期的服务都在运行,日志中没有错误)。但是,当我实际尝试运行一个应用程序时,有几个任务失败了:15/04/0115:27:53INFOmapreduce.Job:TaskId:attempt_1427894767376_0001_m_000008_2,Status:FAILED我检查了yarn和datanode日志,但那里没有任何报告。在userlogs中,slave节点上的syslogs文件都包含如下错误信息:2015-04-0115:27:21,077INFO[main]org

hadoop - Hive 查询性能调优

我是hadoop和hive的新手。您能否建议在cloudera5.2.1上运行的ApacheHive是否有任何性能调整步骤。为了提高Hive查询性能,调整参数是什么配置单元版本:-配置单元0.13.1-cdh5.2.1hive查询:-选择不同的a1.chain_numberchain_number,a1.chain_description链条描述来自staff.organization_hierarchya1;Hive表创建为外部表,选项为“STOREDASTEXTFORMAT”,表属性如下:-更改以下配置单元设置后,我们看到了10秒的改进设置hive.exec.parallel=tr

hadoop - 为什么 hadoop yarn mapreduce 作业不工作并停止运行作业?

我有一个mapreduce作业,我用YARN模式运行它。但是为什么我的mapreduce作业在运行作业步骤时停止而不继续?是这样的:15/04/0417:18:21INFOimpl.YarnClientImpl:Submittedapplicationapplication_1428142358448_000215/04/0417:18:21INFOmapreduce.Job:Theurltotrackthejob:http://master:8088/proxy/application_1428142358448_0002/15/04/0417:18:21INFOmapreduce.

hadoop - pig 加入两个关系只与加入伙伴

我是PigLatin编程的新手,我有一个问题。假设我有以下两个关系(A和B):RelationA:http://i.stack.imgur.com/Aa5Rd.pngRelationB:http://i.stack.imgur.com/m467q.png现在,应该加入关系,但前提是A中存在键(id)。否则不会。所以结果应该是这样的:关系结果:i.stack.imgur.com/3elgh.png(我不能发布超过2个链接)我该如何解决?我的方法result=JOINABYid,BBYid;因为它创建了与所有id和文本的结果关系:/非常感谢您,斯特凡诺斯 最佳答

hadoop - 从其他 PC 下载 Hadoop 数据

我在一台PC上安装了Hadoopv2.6,运行的是UbuntuOS14.04。我使用Hadoop-put命令将大量非结构化数据添加到HDFS。谁能告诉我如何使用Hadoop提供的Web用户界面从另一台不在Hadoop集群中的PC下载这些数据?我可以在浏览器地址栏输入其他PC的数据(HDFS服务器的IP地址):端口号像这样:192.168.x.x:50070问题是,我无法下载数据,因为它给出错误“网页不可用”。我也试过其他浏览器,但还是不行。 最佳答案 端口50070是默认名称节点端口。您应该尝试端口14000,这是默认的HttpFS

hadoop - 在 MapReduce 中写入多个 O/P 文件时出现问题

我需要根据过滤条件将我的输入文件拆分为2个输出文件。我的输出目录应如下所示:/hdfs/base/dir/matched/YYYY/MM/DD/hdfs/base/dir/notmatched/YYYY/MM/DD我正在使用MultipleOutputs类在我的map函数中拆分我的数据。在我的驱动程序类中,我使用如下:FileOutputFormat.setOutputPath(job,newPath("/hdfs/base/dir"));我在下面使用的Mapper中:mos.write(key,value,fileName);//FileNameisgeneratingbasedon

hadoop - 连接异常 : Connection refused when run mapreduce in Hadoop

我在多机模式下设置了Hadoop(2.6.0):1个名称节点+3个数据节点。当我使用命令:start-all.sh时,它们(名称节点、数据节点、资源管理器、节点管理器)工作正常。我用jps命令检查了它,每个节点上的结果如下:名称节点:7300ResourceManager6942NameNode7154SecondaryNameNode数据节点:3840DataNode3924NodeManager我还在HDFS上上传了示例文本文件:/user/hadoop/data/sample.txt。那一刻绝对没有错误。但是当我尝试使用hadoop示例的jar运行mapreduce时:hadoo

hadoop - 如何根据某些值中止 pig 脚本?

ApachePig中是否有任何东西可以根据值中止它的运行?例如y=foreachx生成column1为空?中止脚本:column1ascolumn1; 最佳答案 中止是不可能的可能的方法:生成数据并增加一些计数器。下一个操作将检查此计数器并将结果标记为_SUCCESS或删除目录。 关于hadoop-如何根据某些值中止pig脚本?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/29

hadoop - 长期运行的 yarn 应用程序的设计问题

我正在尝试编写一个yarn应用程序,并希望就我想到的几个设计问题获得一些建议。我已经了解了更简单的示例应用程序,如分布式shell及其一些变体,因此我熟悉基本的API。我想做的是创建一个具有Web界面的应用程序,用户可以与之交互并可能提供某种任务(任务的性质无关紧要)。基于这项工作,UI请求容器进行处理。我想到的理想安排是我的应用程序主管提供此WebUI,并且在有人来到AM网站并请求一些工作之前不会分配任何容器。此时,AM应该可以注册新容器并为其分配工作。如果AM提供WebUI,我的理解是每次向RM提交申请时,AM都由RM选择。这意味着AM可以有不同的IP,因此在应用程序重新启动时有不