草庐IT

Using-Elastic-Map-Reduce-via-Comm

全部标签

sql - 生成 map 的 Hive 聚合函数

我有以下配置单元表ID、类、值1,A,0.31,B,0.41,C,0.52,B,0.12,C,0.2我想得到ID,类:值1,[A:0.3,B:0.4,C:0.5]2,[B:0.1,C:0.2]我知道有一个collect_set()UDAF可以生成类列表或值列表,是否可以获取键值对列表?注意:我想我可以使用两个collect_set(),一个用于类列,一个用于值列,但我不确定列表的顺序是否相同。 最佳答案 我使用Brickhouse库中的UnionUDAF来做类似的事情。您从每一对创建一个映射,然后在聚合过程中将它们联合在一起。Add

java - 为什么 hadoop 不能识别我的 Map 类?

我正在尝试在hadoop2.2.0上运行我的PDFWordCountmap-reduce程序,但出现此错误:13/12/2523:37:26INFOmapreduce.Job:TaskId:attempt_1388041362368_0003_m_000009_2,Status:FAILEDError:java.lang.RuntimeException:java.lang.ClassNotFoundException:ClassPDFWordCount$MyMapnotfoundatorg.apache.hadoop.conf.Configuration.getClass(Confi

hadoop - pig : Container is running beyond physical memory limits in cdh 5 using oozie

我正在尝试运行一个简单的pig脚本,该脚本在gruntshell中运行f9但不使用oozie,出现如下错误:容器[pid=2617,containerID=container_1438923434512_12103_01_000002]正在超出物理内存限制运行。当前使用情况:已使用1.0GB的1GB物理内存;使用了2.9GB的2.1GB虚拟内存。杀死容器。container_1438923434512_12103_01_000002..的进程树转储..实际上我正在通过oozie调用一个shell脚本,实习生调用pig脚本并得到这样的错误。我怎样才能让它在oozie中可用

java - Hadoop 正在完全跳过 reduce 阶段

我已经像这样设置了一个Hadoop作业:publicstaticvoidmain(String[]args)throwsException{Configurationconf=newConfiguration();Jobjob=Job.getInstance(conf,"Legion");job.setJarByClass(Legion.class);job.setMapperClass(CallQualityMap.class);job.setReducerClass(CallQualityReduce.class);//Explicitlyconfiguremapandreduce

hadoop - 我可以在不设置 mapred.reduce.tasks=1 的情况下在 map reduce 程序中找到最小值、最大值或平均值吗

我试图了解如何使用mapreduce找到一个非常大的文件的最小值、最大值和平均值。将reduce任务数设置为1是一个显而易见的解决方案,但对于非常大的文件来说并不是最佳选择。我也在考虑编写一个链式MR作业,但最终,你最终在最终作业中使用了一个reducer。有人可以阐明一些其他方法吗?谢谢 最佳答案 无论您的输入数据集有多大,我在这里使用1个reducer都没有发现任何问题。为此,您应该使用组合器功能,该功能应返回其本地Max、本地Min、本地TotalSum和Count并传递给单个reducer。这样,到达reducer的数据量非

scala - 从 spark 中列出/检索 HDFS 分区作为 Map(String,List(String))

我想知道是否有某种方法可以利用spark.hdfs文件夹结构中已经存在的元数据信息。例如,我正在使用以下代码将数据写入hdfs,valcolumns=Seq("country","state")dataframe1.write.partitionBy(columns:_*).mode("overwrite").save(path)这会生成类似的目录结构,path/country=xyz/state=1path/country=xyz/state=2path/country=xyz/state=3path/country=abc/state=4我想知道的是使用spark,有没有办法将所有

hadoop - 如何将输入日志 .PCAP(二进制)与 Map Rreduce Hadoop 一起使用

日志Tcpdumps是二进制文件,我想知道我应该使用什么hadoop的FileInputFormat来分割输入数据block...请帮助我!! 最佳答案 用户列表中有一个关于此的主题:http://hadoop.markmail.org/search/list:org%2Eapache%2Ehadoop%2Ecore-user+pcap+order:date-forward基本上,该格式不可拆分,因为您无法在文件中找到从任意偏移量开始的记录的开头。所以你必须做一些预处理,插入同步点或类似的东西。也许将较小的文件隐藏成序列文件,然后合

hadoop - 如何在 map/reduce 中执行 ETL

如果我必须将一个文本文件逐行转换为另一个文本文件,我们该如何设计mapper/reducer。我写了一个简单的map/reduce程序,它做了一个小的转换,但要求更详细一些,下面是详细信息:文件的结构通常如下-第一行包含以逗号分隔的列名列表。第二行和其余行针对列指定值在某些行中,尾随列的值可能会丢失,例如:如果有15列,则可能只为前10列指定值。我有大约5个输入文件,我需要将它们转换并聚合到一个文件中。转换特定于5个输入文件中的每一个。如何将文件名等上下文信息传递给映射器/缩减器程序?转换特定于列,那么我如何记住第一行中提到的列,然后关联和转换行中的值? 最

amazon-s3 - 将目录作为压缩文件从 Elastic MapReduce 上传到 S3

我想将EMR本地文件系统中的目录作为压缩文件上传到s3。有没有比我目前使用的方法更好的方法来解决这个问题?是否可以将ZipOutputStream作为Reducer输出返回?谢谢zipFolderAndUpload("target","target.zip","s3n://bucketpath/");staticpublicvoidzipFolderAndUpload(StringsrcFolder,StringzipFile,Stringdst)throwsException{//ZipsadirectoryFileOutputStreamfileWriter=newFileOutp

hadoop - 为什么 Hbase with Hadoop map reduce 性能慢?

我已经在3台具有完全分布式模式的机器上配置了hadoop1.0.3。在下面的第一台机器上,作业正在运行:1)4316SecondaryNameNode4006NameNode4159数据节点4619任务追踪器4425JobTracker2)2794任务追踪器2672数据节点3)3338数据节点3447任务追踪器现在当我在上面运行简单的mapreduce作业时,执行mapreducejob需要更长的时间。所以我在Hadoop上安装了HBASE层。现在我在3个集群上有以下HBASE进程。1)5115HQuorumPeer5198HMaster5408HRegionServer2)3719H