MAPREDUCE_草庐IT

hadoop - 节点管理器是否在每个 DataNode 内部执行 Map 和 Reduce 阶段？

我了解资源管理器将MapReduce程序发送到每个节点管理器，以便MapReduce在每个节点中执行。但是在看到这张图片之后，我对实际Map&Reduce作业的执行位置以及数据节点之间的洗牌如何发生感到困惑？难道不是花时间对不同数据节点的数据进行排序和混洗/发送数据来执行ReduceJob吗？请解释一下。另外请告诉我什么是图中的MapNode和ReduceNode。图片来源:http://gppd-wiki.inf.ufrgs.br/index.php/MapReduce 最佳答案 inputsplit是存储在hdfs上的文件的逻辑

sql - 如何在配置单元中选择计数和文字值

为什么此查询返回错误。我试图将表的代码作为常量字符串加载，数据的标志再次作为常量字符串，插入时间和表的计数。我想，让我在编写插入内容之前尝试运行secelct。但出于某种原因，它无法列出我试图从中获取计数的表中的列名。我只需要两个常量值，一个日期和一个计数。也尝试删除groupby，引发另一个错误。hive-e“选择“WEB”作为src_cd，“1Hr”作为Load_Flag，from_unixtime((unix_timestamp(substr(sysDate,0,11),'dd/MMM/yyyy')),'MM/dd/yyyy')作为时间，计数(*)来自博客其中年=2015月=04

配置单和文 section 39 yyyy sql hadoop mapreduce hive hortonworks-data-platform

hadoop - 关于 YARN 的查询(故障模式、容器大小、实例)

我想问几个问题来理解YARN的工作原理:任何人都可以解释或引用任何可以轻松了解YARN中故障模式的文档(即任务故障、应用程序主机故障、节点管理器故障、资源管理器故障)YARN中的容器大小是多少？和Mapreduce1中的slot一样吗？YARN的任何实际/工作示例？谢谢最佳答案请参阅Hadoop权威指南教科书...除此之外，apache网站上还有很多信息。容器大小不是固定的，它是根据资源管理器的要求动态分配的。从开发人员的角度来看，相同的旧map-reduce将适用于YARN。ResourceManager失败在YARN框架的初

容器 hadoop ResourceManager ApplicationMaster mapreduce hadoop-yarn

eclipse - hadoop 将输出写入 hdfs 文件

我已经编写了我的第一个mapreduce程序，当我在eclipse中运行它时，它会写入输出文件并按预期工作。但是，当我使用hadoopjarmyjar.jar从命令行运行它时，结果没有写入输出文件。正在创建输出文件(_SUCCESS和part-r-0000)，但它们是空的。有任何持久性问题吗？减少输入记录=12但减少输出记录=0。但是如果我在eclipse中这样做，那么它就不为零。在Eclipse中，减少输出记录不是0。任何帮助表示赞赏。谢谢[cloudera@quickstartDesktop]$sudohadoopjarcheckjar.jarhdfs://quickstart.c

eclipse hadoop mapreduce INFO Number reduce

java - 如何将 Hadoop MapReduce 作业限制在一定数量的节点上？

所以，基本上我有一个包含4个数据节点的系统。但是，为了检查我的hadoop应用程序的可伸缩性，我想用1、2和4个节点对其进行测试。那么，如何将hadoop使用的节点数限制为1或2个。我使用的是hadoop2.5.1，我没有系统的管理员权限。此外，如何控制hadoop用于节点的内核数？最佳答案您需要管理员权限才能执行所有操作如何将hadoop使用的节点数限制为1或2个。Decommission2-3个节点如何控制hadoop为节点使用的内核数在yarn-site.xml中设置以下配置，为每个节点分配8个vcoreyarn.node

定数 MapReduce section hadoop strong java bigdata hadoop-yarn

java - hdfs 文件在伪分布式单节点集群中的位置？

我以伪分布式模式在单个节点上安装了hadoop。dfs.replication值为1，hdfs中的文件默认存放在哪里？我使用的hadoop版本是2.5.1。最佳答案 dfs.datanode.data.dir:确定DFS数据节点应在本地文件系统中存储其block的位置。如果这是一个逗号分隔的目录列表，那么数据将存储在所有命名的目录中，通常在不同的设备上。不存在的目录将被忽略。此属性的默认值为:file://${hadoop.tmp.dir}/dfs/data您可以在core-site.xml文件中配置${hadoop.tmp.di

java hdfs hadoop section hadoop-project-dist mapreduce bigdata

java - 我如何从 Hadoop 中的 map 程序输出具有列表等数据结构的自定义类

我是Hadoop和MapReduce编程的新手。我有一个数据集，其中包含943个用户对电影的评分。每个用户最多评价了20部电影。现在我希望我的Mapper的输出是用户ID和一个自定义类，它将有两个列表用于电影(用户评分的电影ID)和评级(每部电影的评级)。但是我不确定在这种情况下如何从Map方法输出这些值。代码片段如下:-publicclassUserRatingsimplementsWritableComparable{privateListmovieId;privateListmovieRatings;publicListgetMovieRatings(){returnmovieR

自定 Hadoop String public input java mapreduce

performance - 为什么 hadoop map 任务上的更多内存会使 mapreduce 作业变慢？

我想问一下。为什么如果我在mapreduce.map/reduce.memory.mb和mapreduce.map/reduce.java.opts中将mapred-site.xml配置为比默认值更大的值会使我的工作变慢？但是如果我将它配置得太低，那么我会任务失败。而且我认为在这种情况下，我在hadoop上的内存配置是没有必要的......你能给我解释一下吗？最佳答案当您增加mapreduce.map/reduce.memory.mb和mapreduce.map/reduce.java.opts的值时，您的环境中可能会发生什么>

performance mapreduce section 容器 hadoop memory hadoop-yarn

hadoop - 如何使用MR代码处理hadoop中的单个文件

我有一个文件，其中包含meterid、hour、watts...和其他一些字段。我为每个meterid制作了复合键meterid和hour以及每小时的瓦特总和。MR代码适用于单个文件。我有多个文件，文件名是日期之类的14-05-2015.txt,15-05-2015.txtetc.我执行相同的代码并添加与meterid和小时对应的所有瓦特。但我希望瓦特将为与电表ID和小时相对应的每个文件求和，而不是为所有文件求和。最佳答案要轻松解决此问题，您可以在编写的组合键中也包含文件名。这将帮助您在缩减阶段之前对为每个文件单独生成的key进

hadoop 如何 section meterid 求和 mapreduce

hadoop - 在 Hadoop 作业中找不到类

我有一个mapreduce作业，它从DocumentDB获取输入。我在源代码的lib目录下添加了jar文件，并在运行作业时使用了-libjars。但我仍然收到jar文件中某个类的类未找到错误。这是我的驱动程序的一部分publicclassMapReduceDriverextendsConfiguredimplementsTool{publicstaticvoidmain(String[]args)throwsException{intres=ToolRunner.run(newConfiguration(),newMapReduceDriver(),args);System.exit(

hadoop java Configuration mapreduce azure-cosmosdb