草庐IT

hadoop-mapreduce

全部标签

hadoop - Hbase master 启动失败异常Java.Lang.NoSuchMethodException

我正在关注LarsGeorgeHbase权威指南。我正在我的MountainLionMacbookpro上设置一个伪分布式集群。我下载了Hadoop存档0.20.205.0,解压缩并做了一些小改动dfs.replication=1和其他人。当我在hbase-site.xml中进行更改以指定localhosthdfsnamenode时hbase.rootdir=hdfs://localhost:9000/hbase还有一些其他属性,比如zookeeperquorum,zookeeperdataDir,isDistributed=true等等。然而,在运行时bin/start-hbase.

hadoop - 使用结果数据筛选另一个数据,Hadoop Pig。

标题可能有点困惑,所以我将展示我想要实现的目标。假设我有一个只有int的数据。102030405060708090数据叫做data.csv什么的我也是A=load'data.csv'usingPigStorage(',');它会把它加载到A然后我使用这些数据并计算它的平均值。我做的B=foreachAgenerateint;C=groupBall;avg=foreachCgenerateAVG(B.int);(忽略小的语法错误,你明白了)所以如果我转储avg,我将得到一个表示数据A平均值的整数。所以,现在我要做的是通过仅具有高于平均值的数据来过滤掉数据A。像这样X=filterAbyi

hadoop - 创建比 reducer 更多的分区

在我的单机上进行本地开发时,我相信reducer的默认数量是6。在特定的MR步骤中,我实际上将数据分成n个分区,其中n可以大于6。根据我的观察,看起来实际上只有6个分区得到处理,因为我只看到6个特定分区的输出。几个问题:(a)是否需要将reducer的数量设置为大于分区的数量?如果是这样,我可以在运行Mapper之前/期间/之后执行此操作吗?(b)为什么其他分区没有排队?有没有办法等待一个reducer处理完一个分区,然后再处理另一个分区,这样无论reducer的实际数量是否小于分区数量,都可以处理所有分区? 最佳答案 (a)不可以

Hadoop 演示代码不工作

Hadoop字数统计示例在执行命令hadoopjar/home/meghna/Desktop/hadoop-1.1.2/hadoop-examples-1.1.2.jarwordcount/word.txt/out时抛出访问控制异常以下是异常的详细信息。13/06/3023:21:21INFOinput.FileInputFormat:Totalinputpathstoprocess:113/06/3023:21:21WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuil

hadoop - cleanup() 方法是否为失败的 map task 调用?

是否为失败的maptask调用了cleanup()方法?如果是这样,它如何确保“原子性”?在我的例子中,我正在映射器中准备一些统计信息,这些统计信息在cleanup()方法中写入数据库。在这种情况下,如果映射器在执行其输入拆分的过程中失败,清理方法会将till处理后的数据写入DB?这将导致不正确的统计信息,因为备用映射器尝试也会再次写入相同的数据。 最佳答案 根据您的映射器何时失败,可能会调用或不调用清理。例如,如果您的映射器在map方法中失败,则不会调用清理。但是,如果您的映射器在清理方法中失败,则清理已经被调用。如果映射器失败,

hadoop - 如何使用 Pig 加载复杂的 Web 日志语法?

我是Pig的完全初学者。我已经安装了cdh4pig并连接到cdh4集群。我们需要处理这些庞大的Web日志文件(这些文件已经加载到HDFS)。不幸的是,日志语法非常复杂(不是典型的逗号分隔文件)。一个限制是我目前无法使用其他工具预处理日志文件,因为它们太大而且无法负担存储副本的费用。这是日志中的原始行:"2013-07-0216:17:12-0700","?c=Thing.Render&d={%22renderType%22:%22Primary%22,%22renderSource%22:%22Folio%22,%22things%22:[{%22itemId%22:%225442f6

hadoop - 为什么 pig 群有奇数行为

在hadoop中,如果你想对某些东西进行分组和排序并编写java,结果是组键也将默认按词典顺序排序,所有这些都通过一个MR作业完成,这样你就可以节省另一个排序作业。但现在我加入了使用Pig的行列,发现了一个古怪的东西。我的输入(test.txt)是:aababcbc我的脚本是:A=load'test.txt'asc1:chararray;B=groupAbyc1;dumpB;输出是:(a)(b)(c)(ab)(abc)为什么它有组键顺序取决于字符串长度但字母顺序。这样我需要做另一个键顺序工作,总共两个工作,因为组没有比较器插件。有什么团购解决方案吗?我将不胜感激。

hadoop - 使用 pig 从键值对中获取 n 个值

我有一个测试文件,其中的键和值由逗号分隔。我怎样才能使用pig脚本为每个键获取10个值。示例输入:john|str1,str2,str3,str4,str5,str6,str7,str8,str9,str10,str11,str2,首选输出:john|str1,str2,str3,str4,str5,str6,str7,str8,str9,str10 最佳答案 有很多不同的方法可以做到这一点,具体取决于您拥有的输入和需要的输出。我假设您只需要前十个值,而可以丢弃其余值。这就是我的做法(CL)。它比短路径(CF)稍长,但代码对我来说更

java - Hadoop Mapreduce 自定义记录读取器

我关注了this为hadoop创建自定义输入拆分的指南。现在我每次都有一个异常(exception):FileSplitsplit=(FileSplit)genericSplit;我导入了这2个:importorg.apache.hadoop.mapred.FileSplit;importorg.apache.hadoop.mapreduce.InputSplit;但我不明白为什么给我异常(exception)。FileSplit扩展了InputSplit,那么为什么会有异常? 最佳答案 我觉得你想要importorg.apache

hadoop - 构建数据模型时 Mahout 出现 NumberFormatException

当我在Mahout的itemBasedRecommender的训练数据中使用字符串值属性时,我得到了一个NumberFormatException,它是在从文件中的数据构建FileDataModel的过程中抛出的。如果字符串属性值为“1.0”,这基本上是一个表示为字符串的数字,那么它不会抛出NumberFormatException。但如果属性值为“Washington”,则会抛出NumberFormatException。有没有什么解决方案可以让我在Mahout中的Recommenders训练数据中将字符串属性值(如“Washington”)作为itemID/userID传递?我正在