Reduce

java - 如何在 map reduce 中选择最优键？

我正在处理股票交易日志文件。每行表示具有20个制表符分隔值的贸易交易。我正在使用hadoop来处理这个文件并对交易进行一些基准测试。现在，对于每一行，我必须执行单独的基准计算，因此不需要在map-reduce中使用reduce函数。为了执行每行的基准计算，我必须查询Sybase数据库以获得与该行对应的一些标准值。数据库根据每行的两个值[tradeId和StockId]建立索引。现在我的问题是，我应该在我的mapreduce程序中使用tradeId和StockId作为键，还是应该为我的键选择其他值/[值的组合]。最佳答案因此，对于

中选何在基准值 section 标准值 java hadoop mapreduce query-optimization sybase

logging - 如何从我的 map/reduce 应用程序登录？

我想使用Hadoop的Log4j基础架构从我的map/reduce应用程序中进行日志记录。我想我已经正确设置了一切，但我仍然无法指定我想要的日志记录级别。默认情况下，Hadoop被设置为在INFO级别记录。它的第一行log4j.properties文件如下所示:hadoop.root.logger=INFO,console我有一个应用程序，其reducer如下所示:packagecom.test;publicclassMyReducerextendsReducer{privatestaticLoggerlogger=Logger.getLogger(MyReducer.class.ge

logging reduce section code log4j hadoop mapreduce

caching - 如何在 hadoop map reduce 作业中有效地缓存大文件？

我的工作流程如下:我正在处理大量数据。我有一个需要缓存的MapFile。此文件的大小现在为1GB，但我希望它最终会变大。MapFile的内容应该是这样的:12345,45464192.34.23.133214,45321123.45.32.1在map-phase中，我处理来自TextInputFormat格式的输入文件中的每条记录。我解析该行(按标记拆分)并检索前两个标记，token1和token2。如果(token1,token2)对不在缓存文件中，那么我调用API，获取信息，保存在缓存中(如果可能)并继续处理。privateParserparser=newcustomParser(

大文何在 section code cache caching hadoop mapreduce distributed-cache map-files

hadoop - Hbase 批量加载 - Map Reduce 作业失败

我有用于hbase批量加载的mapreduce作业。作业正在将数据转换为Hfiles并加载到hbase中，但在某些map%作业失败后。下面是我得到的异常(exception)。Error:java.io.FileNotFoundException:/var/mapr/local/tm4/mapred/nodeManager/spill/job_1433110149357_0005/attempt_1433110149357_0005_m_000000_0/spill83.out.indexatorg.apache.hadoop.fs.RawLocalFileSystem.open(Ra

hadoop Reduce apache java mapreduce hbase bulk-load

c++ - 如何在 nodejs 服务器上使用 hadoop map/reduce？

我有一个带有Nodejs服务器和HTML客户端的网络应用程序。我的服务器集成了许多C++算法。为了减少服务器负载并获得高性能，我想从服务器并行分发我的算法。我是Hadoop及其Map/Reduce编程概念的新手。问题:我应该为这个架构使用集群吗？map缩小会发生这种情况吗？最佳答案你搞混了:聚类，如数据分析(“聚类分析”，但这很难发音)集群，如负载平衡(这很容易发音和精确，但不如“集群”那么酷)一定要区分这两者。关于c++-如何在nodejs服务器上使用hadoopmap/redu

何在 amp section stackoverflow 发音 c++node.js hadoop mapreduce

java - Map Reduce Hadoop 中的倒排列表

我正在尝试修改此代码以生成完整的倒排列表。我的意思是，获取文件位置中每个单词的索引。也就是说，如果我们有两个包含单词的文件abc.txt=Iamcomingtotheparktoplay,yesiam.def.txt=Pleasecomeonover,iwillbewaitingforyou我应该有这样的东西:i/home/abc.txt:110/home/def.txt:5这意味着字母i是文件abc.txt中的第1个和第10个单词以及文件def.txt中的第5个单词我修改了代码以提供“单词位置和单词频率”，如下所示:importjava.io.IOException;importja

倒排 Hadoop IntWritable 单词 class java python

sorting - Hadoop 在 Reduce Side Join 中按值排序

所以我只是在进行一些Hadoop培训，以了解这片土地的情况，并且我正在尝试进行reducesidejoin，我已经在运行，除了次要排序。所以基础知识:两个文件一个有球员，球队，薪水另一个有球员，球队，本垒打输出应该是球队，球员，薪水，本垒打纽约大都会队应该被划分到一个文件中，而所有其他蹩脚的球队应该被划分到另一个文件中。这些文件中的每一个都应按球队排序，其次按球员薪水排序。我正在使用团队keyplayerID加入并且有效，但我不知道我将如何按薪水排序，因为两个文件中只有一个有它。这是一项可能的任务还是只能通过map端连接来完成？最佳答案

sorting Hadoop section 薪水蹩脚

hadoop - 风筝数据集 map-reduce

我正在尝试使用kite-datasetapi进行map-reduce。我已按照以下网址进行引用。https://community.cloudera.com/t5/Kite-SDK-includes-Morphlines/Map-Reduce-with-Kite/td-p/22165https://github.com/kite-sdk/kite/blob/master/kite-data/kite-data-mapreduce/src/test/java/org/kitesdk/data/mapreduce/TestMapReduce.java我的代码片段如下publicclassM

map-reduce hadoop MRAppMaster mapreduce org cloudera

hadoop - Cosmos Hive 错误进入和使用 map reduce

我在cosmosfiware实验室实例上执行Hive时遇到了一些问题。首先，登录机器后，我在Hive命令行中输入，出现如下错误(我看到了其他相关问题，但找不到解决方案):$hivelog4j:ERRORCouldnotinstantiateclass[org.apache.hadoop.hive.shims.HiveEventCounter].java.lang.RuntimeException:Couldnotloadshimsinclassorg.apache.hadoop.log.metrics.EventCounteratorg.apache.hadoop.hive.shims

hadoop Cosmos java apache mapreduce hive fiware fiware-cosmos

java - Hadoop Map-Reduce 输出文件异常

我在amazond2.2Xlarge上运行单节点hadoop集群时遇到此错误。我也无法查看我的输出。任何人都可以为我提供解决此问题的正确步骤吗？"Causedby:org.apache.hadoop.util.DiskChecker$DiskErrorException:Couldnotfindanyvalidlocaldirectoryforoutput/file.out"这是我执行的步骤。bin/hdfsdfsadmin-safemodeleavebin/hadoopfs-mkdir/inputfilesbin/hadoopdfsadmin-safemodeleavebin/had

Map-Reduce Hadoop code section java exception mapreduce

76 77 787980 81 82