草庐IT

hadoop-examples

全部标签

security - 启用安全性 PriviledgedActionException (auth :KERBEROS)) 后 Hadoop 服务未启动

我有一个版本5的Cloudera集群启用Hadoop安全后我遇到了一个问题Hadoop服务没有启动。我在YARN上遇到错误:PriviledgedActionExceptionas:mapred/cdh4hdm@IMP.CO.IN(auth:KERBEROS)cause:java.io.IOException:Couldn'tsetupconnectionformapred/cdh4hdm@IMP.CO.INtocdh4hdm/172.26.43.40:80203:23:49.298PMINFOorg.apache.hadoop.service.AbstractServiceServi

hadoop - 包里的RANK?

假设我有set_of_values:a,ka,la,mb,xb,yb,z如果我用a=RANKset_of_values;我得到:1,a,k2,a,l3,a,m4,b,x5,b,y6,b,z我想达到的是RANK,但是在组内。第一:a=groupset_of_valuesbyfirst_value;(a,{(a,k),(a,l),(a,m)})(b,{(b,x),(b,y),(b,z)})我现在应该怎么做才能得到:(a,{(1,a,k),(2,a,l),(3,a,m)})(b,{(1,b,x),(2,b,y),(3,b,z)})编辑(在foreach中添加RANK)b=foreacha{c

java - 在 Java 中使用 Hadoop

因此,我只是使用自制软件(brewinstallhadoop)安装了Hadoop,并且尝试使用JavaAPI(http://archive.cloudera.com/cdh/3/hadoop/api/index.html)。例如,当我导入时:importorg.apache.hadoop.fs.Path;编译器只是告诉我这个包不存在。有谁知道如何让这些包正确导入?我的JAVA_HOME='/usr/libexec/java_home'所以我不知道可能是什么问题。谢谢! 最佳答案 您需要在您的java类路径中包含hadoop-core

java - Hadoop:没有数据本地任务

我正在2节点集群上运行Hadoop作业。复制因子设置为2,因此,每个block都应该出现在所有节点上,所有任务都应该是数据本地的。但是,Web界面显示数据本地任务的数量为0。知道问题出在哪里吗? 最佳答案 我发现了问题出在哪里,很抱歉在提问之前我没有做足够的研究。作业完成后,我查看了控制台日志,发现所有任务实际上都是本地数据。一定是WebUI显示不正确信息的问题。 关于java-Hadoop:没有数据本地任务,我们在StackOverflow上找到一个类似的问题:

hadoop - Pig 在空集中生成结果

我正在编写一个相当基本的PigLatin脚本,但在执行GENERATE时遇到了问题。在GENERATE之前,转储显示数据与我预期的一样。但是,一旦我执行了GENERATE,结果就是一个空集。根据PigLatin引用手册,这似乎是正确的。当脚本运行时,我没有收到任何错误(它报告成功。)如果我在LOAD期间对字段使用名称或位置符号,则会发生这种情况。我的脚本:B=LOAD'data';DUMPB;C=FOREACHBGENERATE(int)$2,(int)$3,(int)$4;DESCRIBEC;DUMPC;这是输出:(2014-01-2608:14:21,672,1,0,1,55,..

hadoop - LZO-就地在 HDFS 上压缩和索引文件?

通常我会执行以下操作来使用LZO:使用lzop命令将数据文件压缩到本地磁盘。放入HDFS。使用分布式lzo索引器生成.index文件。我想知道有没有办法同时对HDFS上的原始文件进行压缩和索引? 最佳答案 是的,你可以:在客户端和服务器上的core-site.xml中,将com.hadoop.compression.lzo.LzopCodec添加到以逗号分隔的编解码器列表中:io.compression.codecsorg.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoo

hadoop - 到 HBase 的 Flume 交易失败

我有一个Flume代理将推文写入HBase接收器。几秒钟后,到接收器的事务失败,每隔8-10秒我就会在Flume代理日志中收到这些错误消息,告诉我到HBase的事务失败。奇怪的是,一些推文仍然通过并进入HBase表。是什么原因造成的?这是在单节点ClouderaQuickstartVM上运行,会不会是资源问题?这是代理日志9:20:44.618PMERRORorg.apache.flume.SinkRunnerUnabletodeliverevent.Exceptionfollows.org.apache.flume.EventDeliveryException:Couldnotwri

maven - 为 hadoop 安装 snappy 失败

我正在按照此处https://code.google.com/p/hadoop-snappy/的snappy安装说明进行操作.但是,我无法完成第3步。我进行了配置、制作、sudomakeinstall和snappy位于/usr/local中的正确字典中。所以下一步是为hadoop安装snappy。因此,正如我所说,我调用snappy-1.1.2Tom$mvn-epackage[INFO]Errorstacktracesareturnedon.[INFO]Scanningforprojects...[INFO]---------------------------------------

java - 如何将 Set<List<Set<Integer>>> 传递给 hadoop map reduce 作业

我需要向map/reduce(hadoop实现)传递一个类型的参数Set>>对于hadoop类JobConf,我可以使用setInt、setFlot、setString、ecc,但如果我想设置“一个集合”或一个列表,是否可行?怎么办? 最佳答案 我没有找到任何通过“setter”方法来做到这一点的方法。但是,您可以将此Collection写入文件,然后将此文件添加到DistributedCache并从映射器/缩减器的配置中加载它。 关于java-如何将Set>>传递给hadoopmapr

java - Hadoop WordCount 按单词出现次数排序

我需要运行WordCount这将给我所有的单词和它们的出现,但按出现次数而不是字母排序我知道我需要为此创建两个作业并一个接一个地运行我使用了SortedwordcountusingHadoopMapReduce中的映射器和缩减器packageorg.myorg;importjava.io.IOException;importjava.util.*;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.*;importorg.apache.hadoop.mapred.*;importorg.apache.hadoop.map