草庐IT

HADOOP_PREFIX

全部标签

hadoop - 如何下载特定版本的hadoop文档?

如何下​​载特定版本的hadoop文档?我想在我的机器上有多个版本的离线文档。 最佳答案 从https://svn.apache.org/repos/asf/hadoop/common/site/main/publish/docs/找到您需要下载的版本的链接。执行svncheckout,示例svncheckouthttps://svn.apache.org/repos/asf/hadoop/common/site/main/publish/docs/r2.5.2/ 关于hadoop-如何

hadoop - 如何收集Hadoop用户日志?

我正在运行M/R作业并在错误发生时记录错误,而不是让作业失败。只有几个错误,但该作业是在具有数百个节点的hadoop集群上运行的。如何在任务日志中搜索而无需在webui(jobtaskhistory)中手动打开每个任务日志?也就是说,如何自动搜索分布在集群各处、存储在本地各个节点的M/R任务日志? 最佳答案 旁注首先:2.0.0发霉了(这是2.0的“测试版”),您应该考虑升级到更新的堆栈(例如2.4、2.52.6)。从2.0开始,Hadoop实现了所谓的“日志聚合”(尽管这不是您想象的那样。日志只是存储在HDFS上)。您可以使用许多

hadoop - Pig - 如何在 pig 中使用嵌套 for 循环来获取元组内的元素列表?

我有一个中间pig结构(A,B,(n.无Cs))示例:(a1,b1,(c11,c12))(a2,b2,(c21))(a3,b3,(c31,c32,c33))现在,我想要格式的数据(a1,b1,c11)(a1,b2,c12)(a2,b2,c21)etc.我该怎么做?基本上我想要元组的大小,然后使用这个大小来运行嵌套的for循环。 最佳答案 你能试试下面的方法吗?输入a1b1(c11,c12)a2b2(c21)a3b3(c31,c32,c33)PigScript:A=LOAD'input'AS(f1,f2,T:(f3:chararray

hadoop - pig 工作总是失败

我正在使用受kerberos保护的hadoop-2.6.0和pig版本0.13.0。我在hdfs中有一个文件,如下所示计数1,ck2,secondpig脚本a=load'/user/username/newtable';b=distincta;dumpb;异常2015-02-0311:34:45,237[main]INFOorg.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher-100%complete2015-02-0311:34:45,431[main]ERRORorg.apache

hadoop - 运行时显示未找到映射器类

map0%减少0%15/02/0307:30:28INFOmapreduce.Job:任务ID:try_1422885720829_0097_m_000000_0,状态:FAILED错误:java.lang.RuntimeException:java.lang.ClassNotFoundException:找不到类org.cognizant.pr2.TroubleMapper在org.apache.hadoop.conf.Configuration.getClass(Configuration.java:1720)在org.apache.hadoop.mapreduce.task.Jo

hadoop - AVG 分组数据抛出错误 1046 :Use an Explicit Cast

我在一个txt文件中有一个MAP数据:[age#27,height#5.8][age#25,height#5.3][age#27,height#5.10][age#25,height#5.1]我想显示每个年龄组的平均高度。这是LAOD语句:records=LOAD'~/Documents/Pig_Map.txt'AS(details:map[]);records:{details:map[]}然后我根据年龄对数据进行分组:group_data=GROUPrecordsBYdetails#'age';group_data:{group:bytearray,records:{(detail

hadoop - 如何在 Ubuntu 中将文件上传到 HDFS

我是hadoop新手,在ubuntu14.04LTS中使用单节点hadoop1.2.1。我想将文件上传到hadoop执行,但我不知道如何使用copyFromLocal命令。请告诉我如何上传文件我的源文件路径"/home/saurabh/downloads/examples.jar"我的hadoop在/usr/local/hadoop/ 最佳答案 如果您的hadoop在PATH中,那么您可以这样做:hadoopfs-put/home/saurabh/downloads/examples.jar/path/in/hdfsIfyourha

hadoop - pig : Unable to Load BAG

我有一个这种格式的记录:{(LarryPage),23,M}{(SumanDey),22,M}{(PalaniPratap),25,M}我正在尝试使用此LOAD记录:records=LOAD'~/Documents/PigBag.txt'AS(details:BAG{name:tuple(fullname:chararray),age:int,gender:chararray});但是我收到了这个错误:2015-02-0420:09:41,556[main]ERRORorg.apache.pig.tools.grunt.Grunt-ERROR1200:mismatchedinput',

hadoop - 社交媒体数据如何成为非结构化数据?

我最近开始阅读大数据,以及如何使用hadoop或BigInsights等工具来管理结构化和非结构化数据。社交媒体分析可以在BigInsights上完成,它获取非结构化数据并相应地对其进行分析/构建。这让我想知道,社交媒体数据是如何非结构化的?例如,您可以使用TwitterRESTAPI调用您在推文上收到的信息,并以结构化的JSON格式返回给您。那么社交媒体数据不是已经结构化了吗?如果是这样,为什么您需要一个主要管理非结构化数据的平台? 最佳答案 有些人也做出“半结构化”的区分。但重点是查询数据的能力。是的,推文等通常有一些结构。但它

hadoop - 我们如何为 HDFS(Hadoop 分布式文件系统)开发代理

我正在进行一个研究项目,我需要为HDFS创建某种代理,这样我们就可以捕获对HDFS的调用,并在将其返回给用户之前应用一些访问/拒绝(文件)策略。对于像HttpFs和WebHDFS这样的HDFS接口(interface),很容易设计代理系统,因为它们使用HTTP与客户端通信。但是HDFS驱动程序使用使用ProtocolBuffer定义的协议(protocol)在客户端和名称节点之间进行通信。HDFS代码中是否有任何钩子(Hook)来设计围绕HDFS本​​机协议(protocol)的代理。Hadoop版本为2.6。 最佳答案 Apach