hadoop-release

eclipse - java.lang.NoClassDefFoundError : org/apache/commons/logging/LogFactory in Hadoop 1. 2.1 Kmean算法

我尝试从http://codingwiththomas.blogspot.kr/2011/05/k-means-clustering-with-mapreduce.html但是有错误log4j:WARNErrorduringdefaultinitializationjava.lang.NoClassDefFoundError:org/apache/log4j/AppenderSkeletonatjava.lang.ClassLoader.findBootstrapClass(NativeMethod)atjava.lang.ClassLoader.findBootstrapClassO

apache - Hadoop 客户端无法连接到服务器

我设置了一个2节点Hadoop集群，运行start-df.sh和start-yarn.sh运行良好(即所有预期的服务都在运行，日志中没有错误)。但是，当我实际尝试运行一个应用程序时，有几个任务失败了:15/04/0115:27:53INFOmapreduce.Job:TaskId:attempt_1427894767376_0001_m_000008_2,Status:FAILED我检查了yarn和datanode日志，但那里没有任何报告。在userlogs中，slave节点上的syslogs文件都包含如下错误信息:2015-04-0115:27:21,077INFO[main]org

apache Hadoop code section blockquote mapreduce

hadoop - Hive 查询性能调优

我是hadoop和hive的新手。您能否建议在cloudera5.2.1上运行的ApacheHive是否有任何性能调整步骤。为了提高Hive查询性能，调整参数是什么配置单元版本:-配置单元0.13.1-cdh5.2.1hive查询:-选择不同的a1.chain_numberchain_number,a1.chain_description链条描述来自staff.organization_hierarchya1;Hive表创建为外部表，选项为“STOREDASTEXTFORMAT”，表属性如下:-更改以下配置单元设置后，我们看到了10秒的改进设置hive.exec.parallel=tr

hadoop Hive section 配置单 code query-optimization

hadoop - 为什么 hadoop yarn mapreduce 作业不工作并停止运行作业？

我有一个mapreduce作业，我用YARN模式运行它。但是为什么我的mapreduce作业在运行作业步骤时停止而不继续？是这样的:15/04/0417:18:21INFOimpl.YarnClientImpl:Submittedapplicationapplication_1428142358448_000215/04/0417:18:21INFOmapreduce.Job:Theurltotrackthejob:http://master:8088/proxy/application_1428142358448_0002/15/04/0417:18:21INFOmapreduce.

hadoop mapreduce section 1428142358448 memory jobs hadoop-yarn

hadoop - pig 加入两个关系只与加入伙伴

我是PigLatin编程的新手，我有一个问题。假设我有以下两个关系(A和B):RelationA:http://i.stack.imgur.com/Aa5Rd.pngRelationB:http://i.stack.imgur.com/m467q.png现在，应该加入关系，但前提是A中存在键(id)。否则不会。所以结果应该是这样的:关系结果:i.stack.imgur.com/3elgh.png(我不能发布超过2个链接)我该如何解决？我的方法result=JOINABYid,BBYid;因为它创建了与所有id和文本的结果关系:/非常感谢您，斯特凡诺斯最佳答

hadoop pig strong code section join duplicates apache-pig

hadoop - 从其他 PC 下载 Hadoop 数据

我在一台PC上安装了Hadoopv2.6，运行的是UbuntuOS14.04。我使用Hadoop-put命令将大量非结构化数据添加到HDFS。谁能告诉我如何使用Hadoop提供的Web用户界面从另一台不在Hadoop集群中的PC下载这些数据？我可以在浏览器地址栏输入其他PC的数据(HDFS服务器的IP地址):端口号像这样:192.168.x.x:50070问题是，我无法下载数据，因为它给出错误“网页不可用”。我也试过其他浏览器，但还是不行。最佳答案端口50070是默认名称节点端口。您应该尝试端口14000，这是默认的HttpFS

hadoop section strong hdfs remote-access

hadoop - 在 MapReduce 中写入多个 O/P 文件时出现问题

我需要根据过滤条件将我的输入文件拆分为2个输出文件。我的输出目录应如下所示:/hdfs/base/dir/matched/YYYY/MM/DD/hdfs/base/dir/notmatched/YYYY/MM/DD我正在使用MultipleOutputs类在我的map函数中拆分我的数据。在我的驱动程序类中，我使用如下:FileOutputFormat.setOutputPath(job,newPath("/hdfs/base/dir"));我在下面使用的Mapper中:mos.write(key,value,fileName);//FileNameisgeneratingbasedon

时出 MapReduce code section pre hadoop multipleoutputs

hadoop - 连接异常 : Connection refused when run mapreduce in Hadoop

我在多机模式下设置了Hadoop(2.6.0):1个名称节点+3个数据节点。当我使用命令:start-all.sh时，它们(名称节点、数据节点、资源管理器、节点管理器)工作正常。我用jps命令检查了它，每个节点上的结果如下:名称节点:7300ResourceManager6942NameNode7154SecondaryNameNode数据节点:3840DataNode3924NodeManager我还在HDFS上上传了示例文本文件:/user/hadoop/data/sample.txt。那一刻绝对没有错误。但是当我尝试使用hadoop示例的jar运行mapreduce时:hadoo

Connection mapreduce hadoop gt lt resourcemanager connection-refused

hadoop - 如何根据某些值中止 pig 脚本？

ApachePig中是否有任何东西可以根据值中止它的运行？例如y=foreachx生成column1为空？中止脚本:column1ascolumn1; 最佳答案中止是不可能的可能的方法:生成数据并增加一些计数器。下一个操作将检查此计数器并将结果标记为_SUCCESS或删除目录。关于hadoop-如何根据某些值中止pig脚本？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/29

hadoop pig section strong column1 apache-pig

hadoop - 长期运行的 yarn 应用程序的设计问题

我正在尝试编写一个yarn应用程序，并希望就我想到的几个设计问题获得一些建议。我已经了解了更简单的示例应用程序，如分布式shell及其一些变体，因此我熟悉基本的API。我想做的是创建一个具有Web界面的应用程序，用户可以与之交互并可能提供某种任务(任务的性质无关紧要)。基于这项工作，UI请求容器进行处理。我想到的理想安排是我的应用程序主管提供此WebUI，并且在有人来到AM网站并请求一些工作之前不会分配任何容器。此时，AM应该可以注册新容器并为其分配工作。如果AM提供WebUI，我的理解是每次向RM提交申请时，AM都由RM选择。这意味着AM可以有不同的IP，因此在应用程序重新启动时有不

hadoop yarn 容器 section 的 hadoop-yarn hadoop2

152 153 154155156 157 158