mapReduce

java - Hadoop MapReduce、Java实现问题

目前我正在研究ApacheHadoop(使用MapReduce作业的Java实现)。我查看了一些示例(例如WordCount示例)。我在编写自定义mapreduce应用程序方面取得了成功(我正在使用ClouderaHadoopDemoVM)。我的问题是关于一些实现和运行时问题。作业类原型(prototype)如下:publicclassWordCount{publicstaticclassMapextendsMapReduceBaseimplementsMapper{publicvoidmap(LongWritablekey,Textvalue,OutputCollectorout

image - 将图像存储在 HBASE 中以供处理和快速访问

我有大量的图片文件需要在HDFS上存储和处理让我们假设两种情况:图片小于5MB图片大小从50KB到20MB我想用图像做4件事:我需要对每个图像独立应用一些函数fnc()。我需要不时地(1000次/天)从HDFS中提取特定图像并将其显示在网站上。这些是用户对特定图像的查询，因此延迟应该是几秒钟。每年必须删除一组图像。系统将添加新图片(1000张新图片/天)IMO应考虑的解决方案设计:小文件问题:MR处理快速访问文件快速写入新文件不是什么大问题，因为图像不会立即使用。延迟几分钟或几小时都可以。我的第一个想法是聚合图像以解决小文件问题，这满足了1和2。但我只剩下快速随机访问图像问题和添加新图

image HBASE strong section li hadoop mapreduce random-access

hadoop - 为什么 map 和 reduce 同时运行？

我是Hadoop的新手。我记得我从某个地方了解到，在Hadoop中，所有map函数都必须在reduce函数开始之前完成。但是当我运行这样的mapreduce程序时，我只是得到了打印输出:map(15%),reduce(5%)map(20%),reduce(7%)map(30%),reduce(10%)map(38%),reduce(17%)map(40%),reduce(25%)为什么它们并行运行？最佳答案在真正的Reduce阶段开始之前，Shuffle、Sort和Merge在Mappers不断完成时发生。这个百分比表明了这一点

hadoop reduce section strong mapreduce

java - Hadoop 中的作业和任务调度

当我阅读延迟公平调度时，我对Hadoop中的术语“作业调度”和“任务调度”感到有点困惑inthisslide.如果我的以下假设有误，请纠正我:默认调度器、容量调度器和公平调度器仅在用户调度多个作业时在作业级别有效。如果系统中只有一个作业，它们将不起任何作用。这些调度算法构成了“作业调度”的基础每个作业可以有多个map和reduce任务，它们是如何分配给每台机器的？如何为单个作业安排任务？“任务调度”的依据是什么？最佳答案在公平调度器的情况下，当有一个作业在运行时，该作业使用整个集群。当提交其他作业时，释放的任务槽将分配给新作业，

Hadoop java section 配给 mapreduce mapper reducers

hadoop - Hadoop 上理想的 reducer 数量是多少？

Hadoopwiki给出的计算reducer的理想数量是0.95或1.75*(nodes*mapred.tasktracker.tasks.maximum)但是什么时候选择0.95，什么时候选择1.75？决定这个乘数时考虑的因素是什么？最佳答案假设您的集群中有100个可用的reduce插槽。负载因子为0.95时，所有95个reduce任务将同时启动，因为有足够的reduce槽可用于所有任务。这意味着没有任务会在队列中等待，直到其余任务之一完成。当reduce任务“小”时，我会推荐此选项，即完成相对较快，或者它们都需要相同的时间，

reducer hadoop reduce section strong mapreduce reducers

java - 将 1GB 数据加载到 hbase 需要 1 小时

我想将1GB(1000万条记录)的CSV文件加载到Hbase中。我为此编写了Map-Reduce程序。我的代码运行良好，但需要1小时才能完成。LastReducer花费了半个多小时的时间。谁能帮帮我？我的代码如下:驱动.Javapackagecom.cloudera.examples.hbase.bulkimport;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.ap

hbase java lt gt property hadoop mapreduce hadoop2

Hadoop YARN - 如何限制请求的内存？

尝试从hadoop-mapreduce-examples-2.2.0.jar运行PI示例时，出现以下异常:org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.yarn.exceptions.InvalidResourceRequestException):Invalidresourcerequest,requestedmemorymaxconfigured,requestedMemory=1536,maxMemory=512不确定1536来自哪里，但512是我在mapred-site.xml中为子任务设置的最大堆大小:mapr

Hadoop YARN code gt lt mapreduce hadoop-yarn

hadoop - 组合器在哪里组合映射器输出 - 在 Map 阶段或 Map-reduce 作业中的 reduce 阶段？

我的印象是，组合器就像作用于本地map任务的reducer，即它聚合单个Map任务的结果，以减少输出传输的网络带宽。通过阅读Hadoop-Thedefinitiveguide3rdedition，我的理解似乎是正确的。来自第2章(第34页)组合器函数许多MapReduce作业受到集群上可用带宽的限制，因此尽量减少map和reduce任务之间传输的数据是值得的。Hadoop允许用户指定要在map输出上运行的组合器函数——组合器函数的输出构成reduce函数的输入。由于combiner函数是一种优化，Hadoop不保证为特定映射输出记录调用它的次数(如果有的话)。换句话说，零次、一次或多次

射器 reduce mapred JobClient code hadoop mapreduce hadoop2

hadoop - mapred-site.xml 中 mapreduce.framework.name 的经典、本地有什么区别？

官方对该参数的描述如下:TheruntimeframeworkforexecutingMapReducejobs.Canbeoneoflocal,classicoryarn.我知道值“yarn”用于MRv2，它会将mapreduce作业提交给resourcemanager。但是本地和经典之间有什么区别？哪个对应MRv1？非常感谢! 最佳答案你是对的，“yarn”代表MRv2。“经典”用于MRv1，“本地”用于MR作业的本地运行。但是为什么需要MRv1？Yarn现在已经结束测试，它比旧的MRv1框架更稳定，而您的MapReduce作

mapred-site framework section MRv MRv1 hadoop mapreduce hadoop-yarn

java - MapReduce 程序中的洗牌步骤是否与映射并行运行？

我试图理解一个MapReduce程序。这样做时，我注意到在所有映射任务完成后，reduce任务几乎立即开始执行。现在，这是令人惊讶的，因为那里的reduce任务处理按键分组的数据，这意味着在其间完成了洗牌/排序步骤。发生这种情况的唯一方法是改组与映射并行进行。其次，如果洗牌确实与映射并行完成，那么在ApacheSpark中相当于什么？映射和按键分组和/或排序也可以在那里并行发生吗？最佳答案 Hadoop的MapReduce不仅仅是map和reduce阶段，还有其他步骤，例如组合器(map-sidereduce)和合并，如下图所示(

洗牌 MapReduce reduce section java scala hadoop apache-spark

120 121 122123124 125 126