mapreduce_shuffle

hadoop - 使用 mahout mapreduce 计算用户相似度

我正在使用Mahout集群，我有大型集群，每个集群有大约10万个用户，每个用户有5个功能。在下一步中，我需要计算皮尔逊相关性以找到集群用户之间的相似性。目前我有一个python脚本，它对我做同样的事情，但正如预期的那样，它需要很长时间的计算并且不再是一个可行的选择我查看了Mahout，因为它提供了使用Pearson、Tanimoto、loglikelyhood度量来查找UserSimilarity的功能，但我找不到的是开发这些相似性度量的Mapreduce版本的方法。是否有任何资源可以举个例子并向我解释如何开发UserSimilarity的mapreduce版本，或者使用hadoop流

hadoop - AWS 上的 MapReduce

有人在AWS上玩过MapReduce吗？有什么想法吗？实现情况如何？最佳答案上手很容易。这是一个常见问题解答:http://aws.amazon.com/elasticmapreduce/faqs/这是入门指南:http://docs.amazonwebservices.com/ElasticMapReduce/latest/GettingStartedGuide/如果您已经拥有EC2账户，则可以使用AWS管理控制台启用MapReduce并在不到10分钟的时间内启动并运行示例应用程序。我做了预打包的字数统计示例应用程序，它返回大

MapReduce入门（一）—— MapReduce概述 + WordCount案例实操

MapReduce入门（一）——MapReduce概述文章目录MapReduce入门（一）——MapReduce概述1.1MapReduce定义1.2MapReduce优缺点1.2.1优点1）MapReduce易于编程2）良好的扩展性3）高容错性4）适合PB级以上海量数据的离线处理1.2.2缺点1）不擅长实时计算2）不擅长流式计算3）不擅长DAG（有向无环图）计算1.3MapReduce核心编程思想1.4MapReduce进程1.5官方WordCount源码1.6常用数据序列化类型1.7MapReduce编程规范1．Mapper阶段2．Reducer阶段3．Driver阶段1.8WordCou

hadoop - pig 0.13 错误 2998 : Unhandled internal error. org/apache/hadoop/mapreduce/task/JobContextImpl

刚刚安装了Pig0.13，我正在尝试将它与Hadoop1.1.2一起使用。(Pig文档指出Pig0.13与Hadoop1.1.2兼容)。根据Pig安装说明，我设置了$PIG_CLASSPATH指向定义了core-site.xml、hdfs-site.xml和mapred-site.xml的/etc/hadoop。Hadoop集群功能正常，可以很好地处理非Pig作业。根据下面的错误描述，我了解到Pig无法找到它正在寻找的JobContextImpl类。根据Hadoop1.1.2API文档，我不认为“任务”是“mapreduce”包的子包。我尝试将hadoop-core-1.1.2.jar

java - MapReduce 输出 ArrayWritable

我正在尝试从一个简单的MapReduce任务中的ArrayWritable获取输出。我发现了几个有类似问题的问题，但我无法在自己的代码中解决问题。所以我期待着你的帮助。谢谢:)!输入带有一些句子的文本文件。输出应该是:>Example:Hello52我在工作中得到的输出是:helloWordLength_V01$IntArrayWritable@221cf05testWordLength_V01$IntArrayWritable@799e525a我认为问题出在IntArrayWritable的子类中，但我没有得到正确的更正来解决这个问题。顺便说一句，我们有Hadoop2.5，我使用以下

java - 在 Hadoop MapReduce 作业中链接 Multi-Reducer

现在我有一个4阶段的MapReduce作业，如下所示:Input->Map1->Reduce1->Reducer2->Reduce3->Reduce4->Output我注意到Hadoop中有一个ChainMapper类，它可以将多个映射器链接成一个大映射器，并节省映射阶段之间的磁盘I/O成本。还有一个ChainReducer类，但它不是真正的“Chain-Reducer”。它只能支持以下工作:[Map+/ReduceMap*]我知道我可以为我的任务设置四个MR作业，并为最后三个作业使用默认映射器。但这会消耗大量磁盘I/O，因为reducer应该将结果写入磁盘以让后面的映射器访问它。是否

unit-testing - hadoop mapreduce 作业的最佳单元测试工具/方法

我是新来的，但需要知道对通过ApacheHadoop编写的程序进行单元测试的最佳方法。我知道我们可以用jUnit方式为map和reduce方法中的逻辑编写单元测试用例。我们也可以对涉及的其他逻辑做同样的事情，但这并不能保证它经过良好的测试并且可以在实际运行环境中工作。我读过关于MRUnit的文章，但它似乎也与我上面提到的类似，但方式更成熟。但它也不会作为真正的mapreduce工作运行，而是一个被mock的工作。任何帮助，将不胜感激。谢谢。最佳答案你当然有其他选择。稍微用谷歌搜索一下，你自己就会得到它。在这里，我为您做到了!这是

hadoop - wordCount mapReduce 作业如何与 apache tez 在 hadoop yarn 集群上运行？

作为tez的github页面说，tez非常简单，其核心只有两个组件:数据处理管道引擎，以及数据处理应用程序的主控程序，可以将上述任意数据处理“任务”放在一个任务DAG中那么我的第一个问题是，现有的mapreduce作业(例如tez-examples.jar中存在的wordcount)如何转换为任务DAG？在哪里？或者他们不...？我的第二个也是更重要的问题是关于这部分的:tez中的每个“任务”都有以下内容:用于使用键/值对的输入。处理它们的处理器。输出以收集处理后的键/值对。谁负责在tez任务之间拆分输入数据？它是用户提供的代码还是Yarn(资源管理器)甚至是tez本身？输出阶段的问题

hadoop - 运行 Hadoop MapReduce，是否可以调用 HDFS 外部的外部可执行文件

在我的映射器中，我想调用安装在HDFS之外的工作节点上的外部软件。这可能吗？执行此操作的最佳方法是什么？我知道这可能会带走MapReduce的一些优势/可扩展性，但我想在HDFS中进行交互，并在我的映射器中调用编译/安装的外部软件代码来处理一些数据。最佳答案 Mappers(和reducers)就像盒子上的任何其他进程一样-只要TaskTracker用户有权运行可执行文件，这样做就没有问题。有几种调用外部进程的方法，但由于我们已经在Java中，ProcessBuilder似乎是一个合乎逻辑的起点。编辑:刚刚发现Hadoop有一

java - 由于容器启动的 AM 容器异常， headless (headless)环境中的 MapReduce 作业失败 N 次

在MacOSX的headless(headless)环境中运行mapreduce作业时(例如，当以特定用户身份通过ssh运行作业时)，我得到以下异常或类似的异常......2013-12-0415:08:28,513WARNorg.apache.hadoop.yarn.server.resourcemanager.RMAuditLogger:USER=hadoopOPERATION=ApplicationFinished-FailedTARGET=RMAppManagerRESULT=FAILUREDESCRIPTION=Appfailedwithstate:FAILEDPERMI