mapReduce_草庐IT

unit-testing - mrunit的继承者是什么？

今天我发现ASF停用了mrunit(参见https://blogs.apache.org/foundation/entry/the_apache_news_round_up85和https://issues.apache.org/jira/browse/HADOOP-3733以及homepageitself)。除了“不活动”之外没有给出任何理由，所以我想必须有其他选择吗？将来应该使用什么来代替mrunit来对mapreduce作业进行单元测试？最佳答案我相信这次退休的原因是意识到Mockito已经可以处理您对映射器/缩减器进行单

hadoop - YARN 资源管理器未连接到节点管理器

在此先感谢您的帮助我正在运行以下版本:Hadoop2.2动物园管理员3.4.5基数0.96hive0.12当我转到http://:50070时，我能够正确地看到2个节点正在运行。问题是当我转到http://:8088时它显示0个节点正在运行。我知道:8088反射(reflect)了资源管理器并显示了正在运行的节点管理器的数量。守护进程全部启动，但节点管理器似乎没有连接到资源管理器。这是日志文件:2013-12-1620:55:48,648INFOorg.apache.hadoop.yarn.client.RMProxy:ConnectingtoResourceManagerat/127

hadoop YARN property gt lt mapreduce hadoop-yarn resourcemanager

hadoop - 为什么我们需要 Hadoop 无密码 ssh？

据我所知，需要无密码ssh，以便主节点可以在每个从节点上启动守护进程。除此之外，无密码ssh对Hadoop的操作有什么用吗？用户代码jar和数据block如何在从属节点之间传输？我想知道使用的机制和协议(protocol)。无密码SSH应该只配置为主从对，甚至在从属之间？最佳答案你是对的。如果ssh不是无密码的，您必须在每台机器上手动启动所有进程。对于你的第二个问题，HDFS中的所有通信都通过TCP/IP进行，并且使用HTTP进行数据移动。机制是这样的:Aclientestablishesaconnectiontoaconfig

hadoop section 从属 the mapreduce

unix - HDFS 和 NFS 之间的区别？

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。这个问题似乎不是关于aspecificprogrammingproblem,asoftwarealgorithm,orsoftwaretoolsprimarilyusedbyprogrammers的.如果您认为这个问题是关于anotherStackExchangesite的主题，您可以发表评论，说明问题可能在哪里得到解答。关闭3年前。Improvethisquestion我是这方面的新手。想了解hadoop分布式文件系统和网络文件系统之间的基本区别以及hdfs相对于nfs的优势是什么？

unix HDFS section class noreferrer hadoop mapreduce operating-system

hadoop - 将参数传递给 Hadoop 映射器

我正在使用新的HadoopAPI并寻找一种方法将一些参数(几个字符串)传递给映射器。我该怎么做？ThissolutionsworksforoldAPI:JobConfjob=(JobConf)getConf();job.set("NumberOfDocuments",args[0]);这里，“NumberOfDocuments”是参数的名称，它的值是从命令行参数“args[0]”中读取的。设置此参数后，您可以按如下方式在reducer或mapper中检索其值:privatestaticLongN;publicvoidconfigure(JobConfjob){N=Long.parseL

射器传递 code section Configuration hadoop mapreduce

hadoop - 来自 org.apache.hadoop.mapreduce.lib.input.FileInputFormat.listStatus 的 guava 秒表的 IllegalAccessError

我正在尝试运行小型spark应用程序，但出现以下异常:Exceptioninthread"main"java.lang.IllegalAccessError:triedtoaccessmethodcom.google.common.base.Stopwatch.()Vfromclassorg.apache.hadoop.mapreduce.lib.input.FileInputFormatatorg.apache.hadoop.mapreduce.lib.input.FileInputFormat.listStatus(FileInputFormat.java:262)atorg.ap

hadoop 秒表 code apache apache-spark mapreduce guava

hadoop - org.apache.hadoop.mapreduce.Job 的所有三个构造函数都已弃用，构造 Job 类的最佳方法是什么？

全部threeconstructorsoforg.apache.hadoop.mapreduce.Job已弃用，有没有办法以非弃用的方式构建Job类？谢谢。最佳答案我会忽略弃用警告并坚持使用“mapred”包，而不是“mapreduce”。这个JIRAMAPREDUCE-1734删除了0.20.3的弃用。关于hadoop-org.apache.hadoop.mapreduce.Job的所有三个构造函数都已弃用，构造Job类的最佳方法是什么？，我们在StackOverflow上找到一

hadoop Job section mapreduce deprecated

hadoop - MapReduce 作业挂起，等待分配 AM 容器

我尝试将简单的字数统计作为MapReduce作业来运行。在本地运行时一切正常(所有工作都在名称节点上完成)。但是，当我尝试使用YARN(将mapreduce.framework.name=yarn添加到mapred-site.conf)在集群上运行它时，作业挂起。我在这里遇到了类似的问题:MapReducejobsgetstuckinAcceptedstate作业输出:***START***15/12/2517:52:50INFOclient.RMProxy:ConnectingtoResourceManagerat/0.0.0.0:803215/12/2517:52:51WARNma

容器 MapReduce gt lt property hadoop hadoop-yarn

hadoop - 执行字数统计 mapreduce 作业时出现 InterruptedException

我已经在我的机器上安装了ClouderaVM5.8版。当我执行字数统计mapreduce作业时，它抛出以下异常。`16/09/0606:55:49WARNhdfs.DFSClient:Caughtexceptionjava.lang.InterruptedExceptionatjava.lang.Object.wait(NativeMethod)atjava.lang.Thread.join(Thread.java:1281)atjava.lang.Thread.join(Thread.java:1355)atorg.apache.hadoop.hdfs.DFSOutputStream

时出 InterruptedException DFSOutputStream section java hadoop mapreduce cloudera hortonworks-data-platform hortonworks-sandbox

hadoop - Mapreduce 洗牌阶段出现内存不足错误

我在运行wordcount-likemapreduce程序时遇到奇怪的错误。我有一个包含20个从站的hadoop集群，每个从站有4GBRAM。我将map任务配置为具有300MB的堆，而我的reduce任务槽获得1GB。每个节点有2个映射槽和1个缩减槽。一切顺利，直到第一轮maptask完成。然后进度保持在100%。我想copyphase正在发生。每个maptask都会生成如下内容:Mapoutputbytes4,164,335,564Mapoutputmaterializedbytes608,800,675(我正在使用SnappyCodec进行压缩)在停止大约一个小时后，reduce任

洗牌 Mapreduce strong ReduceTask hadoop