草庐IT

mapReduce

全部标签

java - 如何从 Hadoop 序列文件中获取最后修改日期?

我正在使用将BinaryFiles(jpegs)转换为Hadoop序列文件(HSF)的映射器:publicvoidmap(Objectkey,Textvalue,Contextcontext)throwsIOException,InterruptedException{Stringuri=value.toString().replace("","%20");Configurationconf=newConfiguration();FSDataInputStreamin=null;try{FileSystemfs=FileSystem.get(URI.create(uri),conf);

hadoop - Wordcount程序卡在hadoop-2.3.0

我安装了hadoop-2.3.0并尝试运行wordcount示例但它开始工作并闲置hadoop@ubuntu:~$$HADOOP_HOME/bin/hadoopjar$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.3.0.jarwordcount/myprgoutputfile114/04/3013:20:40INFOclient.RMProxy:ConnectingtoResourceManagerat/0.0.0.0:803214/04/3013:20:51INFOinput.FileInputForm

aggregate - Elastic MapReduce 中的可用缩减器

我希望我是以正确的方式提出这个问题。我正在学习使用ElasticMapReduce的方法,并且看到了很多关于可与“流式”作业流一起使用的“聚合”reducer的引用资料。在Amazon的“AmazonElasticMapReduce简介”PDF中,它指出“AmazonElasticMapReduce有一个名为aggregrate的默认缩减器”我想知道的是:还有其他可用的默认reducer吗?我知道我可以编写自己的reducer,但我不想最终编写已经存在的东西并“重新发明轮子”,因为我确信我的轮子不会像原来的那样好。 最佳答案 他们引

hadoop - 是否可以在 Hadoop MapReduce 中使用多个不同的映射器进行多个输入?

是否可以在HadoopMapReduce中使用多个不同的映射器进行多个输入?每个映射器类都处理一组不同的输入,但它们都会发出由同一个reducer使用的键值对。请注意,我在这里不是在谈论链接映射器,而是在谈论并行运行不同的映射器,而不是顺序运行。 最佳答案 这称为连接。您想使用mapred.*包中的映射器和缩减器(较旧,但仍受支持)。较新的包(mapreduce.*)只允许一个映射器输入。使用mapred包,您可以使用MultipleInputs类来定义连接:MultipleInputs.addInputPath(jobConf,n

hadoop - 如何在hadoop中按值对字数进行排序?

这个问题在这里已经有了答案:hadoopmapreducesecondarysorting(5个答案)关闭9年前。嗨,我想学习如何在hadoop中按值对字数进行排序。我知道hadoop需要对键进行排序,但不是按值。我知道要对值进行排序,我们必须有一个分区器、分组比较器和一个排序比较器但我在将这些概念一起应用以按值对字数进行排序时感到有些困惑。我们是否需要另一个mapreduce作业来实现相同的目标,或者需要一个组合器来计算出现次数,然后在此处排序并将相同的结果发送给reducer?任何人都可以解释如何按值对单词计数示例进行排序吗?

Hadoop JobConf 类已弃用,需要更新示例

我正在编写hadoop程序,我真的不想玩弃用的类。我在网上的任何地方都找不到更新的程序org.apache.hadoop.conf.Configuration类代替org.apache.hadoop.mapred.JobConf类。publicstaticvoidmain(String[]args)throwsException{JobConfconf=newJobConf(Test.class);conf.setJobName("TESST");conf.setOutputKeyClass(Text.class);conf.setOutputValueClass(IntWritabl

hadoop - Hbase mapreduce错误

我写作业mapreduce,输入是hbase中的一张表。作业运行时出现错误:org.apache.hadoop.hbase.client.ScannerTimeoutException:88557mspassedsincethelastinvocation,timeoutiscurrentlysetto60000atorg.apache.hadoop.hbase.client.HTable$ClientScanner.next(HTable.java:1196)atorg.apache.hadoop.hbase.mapreduce.TableRecordReaderImpl.nextK

Hadoop WordCount 示例卡在 map 上 100% 减少 0%

[hadoop-1.0.2]→hadoopjarhadoop-examples-1.0.2.jarwordcount/user/abhinav/input/user/abhinav/outputWarning:$HADOOP_HOMEisdeprecated.****hdfs://localhost:54310/user/abhinav/input12/04/1515:52:31INFOinput.FileInputFormat:Totalinputpathstoprocess:112/04/1515:52:31WARNutil.NativeCodeLoader:Unabletoloa

hadoop - Hive 在读取期间强制执行架构?

我在这里讲课时遇到的这两个语句的区别和含义是什么:1.Traditionaldatabasesenforceschemaduringloadtime.和2.Hiveenforcesschemaduringreadtime. 最佳答案 您谈到了Hadoop和其他NoSQL策略如此成功的原因之一,所以我不确定您是否希望获得论文,但它就是这样!数据分析中额外的灵active和敏捷性可能促成了“数据科学”的爆炸式增长,只是因为它通常使大规模数据分析变得更容易。传统的关系数据库在存储数据时考虑了模式。它知道第二列是一个整数,它知道它有40列,

hadoop - Hadoop 中的映射器输入键值对

通常,我们以以下形式编写映射器:publicstaticclassMapextendsMapper这里映射器的输入键值对是-据我所知,当映射器逐行获取输入数据时-因此映射器的键表示行号-如果我错了请纠正我。我的问题是:如果我将映射器的输入键值对指定为然后它给出了错误java.lang.ClassCastException:org.apache.hadoop.io.LongWritablecannotbecasttoorg.apache.hadoop.io.Text是否必须将映射器的输入键值对指定为?-如果是那么为什么?如果不是那么错误的原因是什么?你能帮我理解错误的正确原因吗?提前致谢