草庐IT

GLOBAL_MAP

全部标签

java - Hadoop 执行错误 : Type mismatch in key from map: expected org. apache.hadoop.io.Text,收到 org.apache.hadoop.io.LongWritable

我正在Hadoop上实现一个PageRank算法,正如标题所说,我在尝试执行代码时遇到了以下错误:映射键中的类型不匹配:预期的org.apache.hadoop.io.Text,收到的org.apache.hadoop.io.LongWritable在我的输入文件中,我将图形节点ID存储为键,并将关于它们的一些信息存储为值。我的输入文件具有以下格式:1\t3.4,2,5,6,674\t4.2,77,2,7,83......为了理解错误的含义,我尝试使用LongWritable作为我的主要变量类型,如下面的代码所示。这意味着我有:map减少但是,我也试过:map减少还有:map减少而且我

hadoop - Pig - 如何迭代一袋 map

让我解释一下这个问题。我有这行代码:u=FOREACHpersonsGENERATEFLATTEN($0#'experiences')asj;dumpu;产生这个输出:([id#1,date_begin#122012,description#blabla,date_end#042013],[id#2,date_begin#022011,description#blabla2,date_end#042013])([id#1,date_begin#122011,description#blabla3,date_end#042012],[id#2,date_begin#022010,desc

hadoop - 在同一台机器上的多个内核上运行 Map-Reduce 应用程序

我想在一台机器上运行mapreduce任务,我想使用我机器的所有核心。哪种方法最好?如果我以伪分布式模式安装hadoop,是否可以使用所有内核? 最佳答案 您可以使用属性ma​​pred.tasktracker.map.tasks.maximum和ma​​pred.tasktracker.reduce.tasks.maximum来增加映射器的数量/根据您的硬件规范,Reducers在TaskTracker上同时生成。默认情况下,它设置为2,因此最多2个map和2个reduce将在给定实例上运行。但是,要记住的一件事是,如果您的输入非

sql - 生成 map 的 Hive 聚合函数

我有以下配置单元表ID、类、值1,A,0.31,B,0.41,C,0.52,B,0.12,C,0.2我想得到ID,类:值1,[A:0.3,B:0.4,C:0.5]2,[B:0.1,C:0.2]我知道有一个collect_set()UDAF可以生成类列表或值列表,是否可以获取键值对列表?注意:我想我可以使用两个collect_set(),一个用于类列,一个用于值列,但我不确定列表的顺序是否相同。 最佳答案 我使用Brickhouse库中的UnionUDAF来做类似的事情。您从每一对创建一个映射,然后在聚合过程中将它们联合在一起。Add

java - 为什么 hadoop 不能识别我的 Map 类?

我正在尝试在hadoop2.2.0上运行我的PDFWordCountmap-reduce程序,但出现此错误:13/12/2523:37:26INFOmapreduce.Job:TaskId:attempt_1388041362368_0003_m_000009_2,Status:FAILEDError:java.lang.RuntimeException:java.lang.ClassNotFoundException:ClassPDFWordCount$MyMapnotfoundatorg.apache.hadoop.conf.Configuration.getClass(Confi

hadoop - 我可以在不设置 mapred.reduce.tasks=1 的情况下在 map reduce 程序中找到最小值、最大值或平均值吗

我试图了解如何使用mapreduce找到一个非常大的文件的最小值、最大值和平均值。将reduce任务数设置为1是一个显而易见的解决方案,但对于非常大的文件来说并不是最佳选择。我也在考虑编写一个链式MR作业,但最终,你最终在最终作业中使用了一个reducer。有人可以阐明一些其他方法吗?谢谢 最佳答案 无论您的输入数据集有多大,我在这里使用1个reducer都没有发现任何问题。为此,您应该使用组合器功能,该功能应返回其本地Max、本地Min、本地TotalSum和Count并传递给单个reducer。这样,到达reducer的数据量非

scala - 从 spark 中列出/检索 HDFS 分区作为 Map(String,List(String))

我想知道是否有某种方法可以利用spark.hdfs文件夹结构中已经存在的元数据信息。例如,我正在使用以下代码将数据写入hdfs,valcolumns=Seq("country","state")dataframe1.write.partitionBy(columns:_*).mode("overwrite").save(path)这会生成类似的目录结构,path/country=xyz/state=1path/country=xyz/state=2path/country=xyz/state=3path/country=abc/state=4我想知道的是使用spark,有没有办法将所有

hadoop - 如何将输入日志 .PCAP(二进制)与 Map Rreduce Hadoop 一起使用

日志Tcpdumps是二进制文件,我想知道我应该使用什么hadoop的FileInputFormat来分割输入数据block...请帮助我!! 最佳答案 用户列表中有一个关于此的主题:http://hadoop.markmail.org/search/list:org%2Eapache%2Ehadoop%2Ecore-user+pcap+order:date-forward基本上,该格式不可拆分,因为您无法在文件中找到从任意偏移量开始的记录的开头。所以你必须做一些预处理,插入同步点或类似的东西。也许将较小的文件隐藏成序列文件,然后合

hadoop - 如何在 map/reduce 中执行 ETL

如果我必须将一个文本文件逐行转换为另一个文本文件,我们该如何设计mapper/reducer。我写了一个简单的map/reduce程序,它做了一个小的转换,但要求更详细一些,下面是详细信息:文件的结构通常如下-第一行包含以逗号分隔的列名列表。第二行和其余行针对列指定值在某些行中,尾随列的值可能会丢失,例如:如果有15列,则可能只为前10列指定值。我有大约5个输入文件,我需要将它们转换并聚合到一个文件中。转换特定于5个输入文件中的每一个。如何将文件名等上下文信息传递给映射器/缩减器程序?转换特定于列,那么我如何记住第一行中提到的列,然后关联和转换行中的值? 最

hadoop - 为什么 Hbase with Hadoop map reduce 性能慢?

我已经在3台具有完全分布式模式的机器上配置了hadoop1.0.3。在下面的第一台机器上,作业正在运行:1)4316SecondaryNameNode4006NameNode4159数据节点4619任务追踪器4425JobTracker2)2794任务追踪器2672数据节点3)3338数据节点3447任务追踪器现在当我在上面运行简单的mapreduce作业时,执行mapreducejob需要更长的时间。所以我在Hadoop上安装了HBASE层。现在我在3个集群上有以下HBASE进程。1)5115HQuorumPeer5198HMaster5408HRegionServer2)3719H