map_region

java - 如何从 Map-Reduce 中的多个目录读取多个文件

我想在Map-Reduce程序中从多个目录读取多个文件。我试图在main方法中给出文件名:FileInputFormat.setInputPaths(conf,newPath("hdfs://localhost:54310/user/test/"));FileInputFormat.setInputPaths(conf,newPath("hdfs://localhost:54310/Test/test1/"));但它只读取一个文件。读取多个文件应该怎么办？请提出解决方案。谢谢。最佳答案 FileInputFormat#setInp

hadoop - 有什么方法可以防止在所有 map task 完成之前 reduce task 开始

我想在Hadoop集群上同时运行多个作业，但我想阻止某些作业在该作业的所有映射任务完成之前开始缩减阶段(使缩减槽繁忙或保留)。是否有任何配置可以像上面那样设置主题限制？谢谢。最佳答案减少慢启动默认情况下，调度程序会等待作业中5%的maptask完成为同一工作安排reducetask。对于大型作业，这可能会导致问题集群利用率，因为它们在等待map任务时占用reduce槽完全的。将mapred.reduce.slowstart.completed.maps设置为更高的值，例如0.80(80%)，有助于提高吞吐量。引用:Hadoop权

task hadoop section reduce 缩减 mapreduce

hadoop - map() 和 reduce() 应该返回相同类型的键/值对吗？

在编写MapReduce作业(如果相关，特别是Hadoop)时，必须定义一个map()和一个reduce()函数，两者都会产生一系列键/值对。键和值的数据类型由应用程序自由定义。在字数统计的典型示例中，这两个函数都产生类型为(string,int)的对，键是一个字，值是出现次数。在这里-以及我见过的所有其他示例-输出的键和值类型在两个函数之间是一致的。map()和reduce()生成的键/值对的类型必须/应该在任何MapReduce应用程序中相同吗？如果是:为什么？最佳答案没有。显然，map的输出对类型和reduce的输入对类型

hadoop reduce section code mapreduce

hadoop - map-reduce 是否可以有多个输出文件？

在我的输入文件中，我有一列作为国家/地区。现在，我的任务是将特定国家/地区的记录放入以该国家/地区命名的单独文件中。这可能在Map-reduce中做吗？!请分享您对此的看法。最佳答案是的，在hadoop中你可以使用MultipleOutputFormat要做到这一点，使用它的generateFileNameForKeyValue方法。使用您的国家/地区名称作为键并使用记录作为值，这应该完全按照您的需要工作。关于hadoop-map-reduce是否可以有多个输出文件？，我们在Sta

map-reduce hadoop section MultipleOutputFormat mapreduce

scala - Spark 会使用此 sortByKey/map/collect 序列保留键顺序吗？

让我们说，我们有这个。valsx=sc.parallelize(Array((0,39),(4,47),(3,51),(1,98),(2,61)))我们后来称之为。valsy=sx.sortByKey(true)这会让sy=RDD[(0,39),(1,98),(2,61),(3,51),(4,47)]然后我们做collected=sy.map(x=>(x._2/10,x._2)).collect我们会一直得到以下信息吗？我的意思是，尽管更改了键值，是否会保留原始键顺序？collected=[(3,39),(9,98),(6,61),(5,51),(4,47)]

sortByKey collect code section scala hadoop apache-spark bigdata

hadoop - 连接 Elastic Map Reduce ruby 客户端时出错

我正在按照AWS上提到的步骤使用SSH使用交互式Hivesession。我使用了以下资源https://github.com/ucbtwitter/getting-started/wiki/Using-Elastic-Map-Reduce-via-Command-Linehttp://docs.amazonwebservices.com/ElasticMapReduce/latest/GettingStartedGuide/SignUp.html我最初收到此错误“错误:缺少key访问ID”，然后我修复了我的JSON文件。JSON文件的格式与上述链接中提到的格式相同。当我运行这个命令时.

时出 Elastic section strong Using-Elastic-Map-Reduce-via-Comm hadoop amazon-s3 amazon-web-services elastic-map-reduce

hadoop - 为什么我得到 "security.Groups: Group mapping impl=org.apache.hadoop.security.ShellBasedUnixGroupsMapping; cacheTimeout=300000"？

$hdfsdfs-rmrcrawl11/04/1608:49:33INFOsecurity.Groups:Groupmappingimpl=org.apache.hadoop.security.ShellBasedUnixGroupsMapping;cacheTimeout=300000我正在使用hadoop-0.21.0和defaultSingleNodeSetupconfiguration. 最佳答案这不是警告，只是标准消息。但是，它不应该在INFO级别输出，因为它确实会随每条消息一起打印。在主干中，它已移至DEBUG，因此您

security hadoop section nutch hdfs

hadoop - Hbase Map 和 Reduce 在同一张表上

是否可以在同一个hbase表上进行映射和归约？例如考虑wordcount示例，我想映射列的每一行，减少它并立即在同一行上写入worcount。有可能这样做吗？如果有，性能如何？最佳答案我还没有尝试过这个，但我确实看到了陷入无限循环的风险。因此，如果你能做到这一点，那么你必须确保你用作输入的键范围不会与你作为输出产生的键重叠。关于hadoop-HbaseMap和Reduce在同一张表上，我们在StackOverflow上找到一个类似的问题： https:/

hadoop Reduce section stackoverflow questions hbase

hadoop - 在 map/reduce 之间共享资源

运行map任务会减慢reduce任务吗？我所说的放慢速度是指它们共享公共(public)资源吗？最佳答案当然，它们会以某种方式影响系统。它们都是在同一台机器上运行的java进程。然而，在当今的系统配置中，只要您不对插槽数量做一些愚蠢的事情，这就没什么大不了的。每个map任务或reduce任务本身都不是多线程或多进程的，因此它大多只使用一个CPU核心。这就是为什么一般的经验法则是每个核心1个映射或减少插槽是有道理的。因此，如果您有12个核心，则可以执行8个映射槽和4个缩减槽之类的操作。此外，这些任务将共享同一个磁盘，但这也没什么大

共享资源 hadoop section 多进的 hbase

scala - 从 scala 中的 map((tuple),(tuple)) 中读取元组的各个元素

reducebykey生成的输出是一个ShuffledRDD，key-value都是多个字段的数组。我需要提取所有字段并写入配置单元表。下面是我正在尝试的代码:sqlContext.sql(s"selectSUBS_CIRCLE_ID,SUBS_MSISDN,EVENT_START_DT,RMNG_NW_OP_KEY,ACCESS_TYPEFROMFACT.FCT_MEDIATED_USAGE_DATA")valUSAGE_DATA_Reduce=USAGE_DATA.map{USAGE_DATA=>((USAGE_DATA.getShort(0),USAGE_DATA.getStri

scala tuple USAGE_DATA section 34 hadoop apache-spark hive

220 221 222223224 225 226