草庐IT

world-map

全部标签

hadoop - map-reduce 是否可以有多个输出文件?

在我的输入文件中,我有一列作为国家/地区。现在,我的任务是将特定国家/地区的记录放入以该国家/地区命名的单独文件中。这可能在Map-reduce中做吗?!请分享您对此的看法。 最佳答案 是的,在hadoop中你可以使用MultipleOutputFormat要做到这一点,使用它的generateFileNameForKeyValue方法。使用您的国家/地区名称作为键并使用记录作为值,这应该完全按照您的需要工作。 关于hadoop-map-reduce是否可以有多个输出文件?,我们在Sta

scala - Spark 会使用此 sortByKey/map/collect 序列保留键顺序吗?

让我们说,我们有这个。valsx=sc.parallelize(Array((0,39),(4,47),(3,51),(1,98),(2,61)))我们后来称之为。valsy=sx.sortByKey(true)这会让sy=RDD[(0,39),(1,98),(2,61),(3,51),(4,47)]然后我们做collected=sy.map(x=>(x._2/10,x._2)).collect我们会一直得到以下信息吗?我的意思是,尽管更改了键值,是否会保留原始键顺序?collected=[(3,39),(9,98),(6,61),(5,51),(4,47)]

hadoop - 连接 Elastic Map Reduce ruby​​ 客户端时出错

我正在按照AWS上提到的步骤使用SSH使用交互式Hivesession。我使用了以下资源https://github.com/ucbtwitter/getting-started/wiki/Using-Elastic-Map-Reduce-via-Command-Linehttp://docs.amazonwebservices.com/ElasticMapReduce/latest/GettingStartedGuide/SignUp.html我最初收到此错误“错误:缺少key访问ID”,然后我修复了我的JSON文件。JSON文件的格式与上述链接中提到的格式相同。当我运行这个命令时.

hadoop - 为什么我得到 "security.Groups: Group mapping impl=org.apache.hadoop.security.ShellBasedUnixGroupsMapping; cacheTimeout=300000"?

$hdfsdfs-rmrcrawl11/04/1608:49:33INFOsecurity.Groups:Groupmappingimpl=org.apache.hadoop.security.ShellBasedUnixGroupsMapping;cacheTimeout=300000我正在使用hadoop-0.21.0和defaultSingleNodeSetupconfiguration. 最佳答案 这不是警告,只是标准消息。但是,它不应该在INFO级别输出,因为它确实会随每条消息一起打印。在主干中,它已移至DEBUG,因此您

hadoop - Hbase Map 和 Reduce 在同一张表上

是否可以在同一个hbase表上进行映射和归约?例如考虑wordcount示例,我想映射列的每一行,减少它并立即在同一行上写入worcount。有可能这样做吗?如果有,性能如何? 最佳答案 我还没有尝试过这个,但我确实看到了陷入无限循环的风险。因此,如果你能做到这一点,那么你必须确保你用作输入的键范围不会与你作为输出产生的键重叠。 关于hadoop-HbaseMap和Reduce在同一张表上,我们在StackOverflow上找到一个类似的问题: https:/

hadoop - 在 map/reduce 之间共享资源

运行map任务会减慢reduce任务吗?我所说的放慢速度是指它们共享公共(public)资源吗? 最佳答案 当然,它们会以某种方式影响系统。它们都是在同一台机器上运行的java进程。然而,在当今的系统配置中,只要您不对插槽数量做一些愚蠢的事情,这就没什么大不了的。每个map任务或reduce任务本身都不是多线程或多进程的,因此它大多只使用一个CPU核心。这就是为什么一般的经验法则是每个核心1个映射或减少插槽是有道理的。因此,如果您有12个核心,则可以执行8个映射槽和4个缩减槽之类的操作。此外,这些任务将共享同一个磁盘,但这也没什么大

scala - 从 scala 中的 map((tuple),(tuple)) 中读取元组的各个元素

reducebykey生成的输出是一个ShuffledRDD,key-value都是多个字段的数组。我需要提取所有字段并写入配置单元表。下面是我正在尝试的代码:sqlContext.sql(s"selectSUBS_CIRCLE_ID,SUBS_MSISDN,EVENT_START_DT,RMNG_NW_OP_KEY,ACCESS_TYPEFROMFACT.FCT_MEDIATED_USAGE_DATA")valUSAGE_DATA_Reduce=USAGE_DATA.map{USAGE_DATA=>((USAGE_DATA.getShort(0),USAGE_DATA.getStri

Hadoop 计数器 : how to access the Reporter object outside map() and reduce()

要使用计数器,我需要有权访问Reporter对象。Reporter对象作为参数传递给map()和reduce(),因此我可以这样做:reporter.incrCounter(NUM_RECORDS,1);但是我需要在MultipleOutputFormat类中使用计数器(我正在使用方法生成文件名键值)问题:如何访问MultipleOutputFormat类中的Reporter对象? 最佳答案 您可以创建自己的MultipleOutputFormat类,MyMultipleOutputFormat(这听起来有点像你在做的)并创建一个接

java - 如何在不使用已弃用类的情况下编写 Hadoop map reduce 作业?

我知道这是我的强制症,但我无法忍受在我的代码中使用弃用的引用。也就是说,包括“权威指南”一书在内的Hadoop教程仅使用已弃用的JobConf类和mapred包中的类,这些类均已弃用。我在任何地方都找不到有关如何将现有MapReduce作业转换为使用新构造的任何文本。 最佳答案 我不久前与Cloudera人员进行了交谈,他们确认"new"功能不完整,并且如果不使用“已弃用”的包,就无法编写正式的Hadoop内容。 关于java-如何在不使用已弃用类的情况下编写Hadoopmapreduc

hadoop - 在 Eclipse Map/Reduce 位置中,New Hadoop 位置没有响应?

在eclipse中,我正在尝试添加新的hadoop位置。但是当我点击添加新的hadoop位置时,它没有响应。我为hadoop1.0.4构建了自己的插件。我的list如下所示,Bundle-ClassPath:classes/,lib/hadoop-core.jar,lib/commons-configuration-1.6.jar,lib/commons-httpclient-3.0.1.jar,lib/commons-cli-1.2.jar,lib/commons-lang-2.4.jar,lib/jackson-mapper-asl-1.8.8.jar,lib/jackson-co