草庐IT

affordance_map

全部标签

hadoop - 我可以在不设置 mapred.reduce.tasks=1 的情况下在 map reduce 程序中找到最小值、最大值或平均值吗

我试图了解如何使用mapreduce找到一个非常大的文件的最小值、最大值和平均值。将reduce任务数设置为1是一个显而易见的解决方案,但对于非常大的文件来说并不是最佳选择。我也在考虑编写一个链式MR作业,但最终,你最终在最终作业中使用了一个reducer。有人可以阐明一些其他方法吗?谢谢 最佳答案 无论您的输入数据集有多大,我在这里使用1个reducer都没有发现任何问题。为此,您应该使用组合器功能,该功能应返回其本地Max、本地Min、本地TotalSum和Count并传递给单个reducer。这样,到达reducer的数据量非

scala - 从 spark 中列出/检索 HDFS 分区作为 Map(String,List(String))

我想知道是否有某种方法可以利用spark.hdfs文件夹结构中已经存在的元数据信息。例如,我正在使用以下代码将数据写入hdfs,valcolumns=Seq("country","state")dataframe1.write.partitionBy(columns:_*).mode("overwrite").save(path)这会生成类似的目录结构,path/country=xyz/state=1path/country=xyz/state=2path/country=xyz/state=3path/country=abc/state=4我想知道的是使用spark,有没有办法将所有

hadoop - 如何将输入日志 .PCAP(二进制)与 Map Rreduce Hadoop 一起使用

日志Tcpdumps是二进制文件,我想知道我应该使用什么hadoop的FileInputFormat来分割输入数据block...请帮助我!! 最佳答案 用户列表中有一个关于此的主题:http://hadoop.markmail.org/search/list:org%2Eapache%2Ehadoop%2Ecore-user+pcap+order:date-forward基本上,该格式不可拆分,因为您无法在文件中找到从任意偏移量开始的记录的开头。所以你必须做一些预处理,插入同步点或类似的东西。也许将较小的文件隐藏成序列文件,然后合

hadoop - 如何在 map/reduce 中执行 ETL

如果我必须将一个文本文件逐行转换为另一个文本文件,我们该如何设计mapper/reducer。我写了一个简单的map/reduce程序,它做了一个小的转换,但要求更详细一些,下面是详细信息:文件的结构通常如下-第一行包含以逗号分隔的列名列表。第二行和其余行针对列指定值在某些行中,尾随列的值可能会丢失,例如:如果有15列,则可能只为前10列指定值。我有大约5个输入文件,我需要将它们转换并聚合到一个文件中。转换特定于5个输入文件中的每一个。如何将文件名等上下文信息传递给映射器/缩减器程序?转换特定于列,那么我如何记住第一行中提到的列,然后关联和转换行中的值? 最

hadoop - 为什么 Hbase with Hadoop map reduce 性能慢?

我已经在3台具有完全分布式模式的机器上配置了hadoop1.0.3。在下面的第一台机器上,作业正在运行:1)4316SecondaryNameNode4006NameNode4159数据节点4619任务追踪器4425JobTracker2)2794任务追踪器2672数据节点3)3338数据节点3447任务追踪器现在当我在上面运行简单的mapreduce作业时,执行mapreducejob需要更长的时间。所以我在Hadoop上安装了HBASE层。现在我在3个集群上有以下HBASE进程。1)5115HQuorumPeer5198HMaster5408HRegionServer2)3719H

hadoop - 需要帮助编写 Map/Reduce 作业以找到平均值

我是HadoopMap/Reduce的新手。我正在尝试编写一个Map/Reduce作业来查找n个进程所花费的平均时间,给定如下输入文本文件:ProcessNameTimeprocess110process220processn30我看了几个教程,但仍然无法透彻理解。我的mapper和reducer类应该如何解决这个问题?我的输出始终是文本文件还是可以将平均值直接存储在某种变量中?谢谢。 最佳答案 您的映射器读取文本文件并在每一行上应用以下映射函数map:(key,value)time=value[2]emit("1",time)所有

hadoop - RDBMS 与 MAP REDUCE

我正在阅读Hadoop-权威指南,我遇到了这些行:NormalizationposesproblemsforMapReduce,sinceitmakesreadingarecordanonlocaloperation,andoneofthecentralassumptionsthatMapReducemakesisthatitispossibletoperform(high-speed)streamingreadsandwrites.谁能用通俗易懂的语言解释一下这些行的实际含义?我知道什么是规范化。它是如何使读取记录成为非本地的手术?非本地操作引用hadoop是什么意思?

apache - Hadoop/map-reduce : Total time spent by all maps in occupied slots vs. 所有 map task 花费的总时间

背景:我正在分析AWSHadoop作业在各种集群配置上的性能,一些Hadoop计数器令人困惑。问题:“所有map在占用槽中花费的总时间”和“所有maptask花费的总时间”有什么区别?(减少相同的问题)。为简单起见,我们称这些计数器为mapO、mapT、redO和redT。这是我在三种不同的配置中看到的(每种配置都有不同数量的核心/从节点):1)对于AWS/EMR作业(Hadoop2.4.0-amzn-3),mapO/mapT的比率始终为6.0,redO/redT的比率始终为12.0。2)对于使用实例存储的手动安装的Hadoop(Hadoop2.4.0.2.1.5.0-695),map

Hadoop 1.0.3 mapred.map.tasks 属性不工作

我正在使用hadoop1.0.3运行mapreduce作业。我有一个3节点集群设置。问题是我在/conf/mapred-site.xml中将属性mapred.map.tasks设置为20,但是当我运行该作业并使用以下网页访问集群信息时,hadoop仅显示6个maptask:50030。我已经在集群中的所有节点上编辑了上述配置文件。请帮忙。问候,莫辛 最佳答案 正如miguno所说,Hadoop只将mapred.map.tasks的值视为提示。也就是说,当我在使用MapReduce时,我能够通过指定最大计数来增加映射计数。这可能不适合

hadoop map reduce -archives 不解压文件

希望你能帮助我。我有一个关于hadoopmap-reduce的令人头疼的问题。我一直在hadoop1.0.3版的map-reduce上成功使用“-files”选项。但是,当我使用“-archives”选项时,它会复制文件,但不会解压缩它们。我错过了什么?文档说“Archives(zip,tarandtgz/tar.gzfiles)areun-archivedattheslavenodes",但这不是我所看到的。我创建了3个文件-一个文本文件“alice.txt”、一个压缩文件“bob.zip”(包含b1.txt和bdir/b2.txt)和一个tar文件“claire.tar”(包含c1