草庐IT

mapreduce_shuffle

全部标签

hadoop - 使用 mahout mapreduce 计算用户相似度

我正在使用Mahout集群,我有大型集群,每个集群有大约10万个用户,每个用户有5个功能。在下一步中,我需要计算皮尔逊相关性以找到集群用户之间的相似性。目前我有一个python脚本,它对我做同样的事情,但正如预期的那样,它需要很长时间的计算并且不再是一个可行的选择我查看了Mahout,因为它提供了使用Pearson、Tanimoto、loglikelyhood度量来查找UserSimilarity的功能,但我找不到的是开发这些相似性度量的Mapreduce版本的方法。是否有任何资源可以举个例子并向我解释如何开发UserSimilarity的mapreduce版本,或者使用hadoop流

hadoop - AWS 上的 MapReduce

有人在AWS上玩过MapReduce吗?有什么想法吗?实现情况如何? 最佳答案 上手很容易。这是一个常见问题解答:http://aws.amazon.com/elasticmapreduce/faqs/这是入门指南:http://docs.amazonwebservices.com/ElasticMapReduce/latest/GettingStartedGuide/如果您已经拥有EC2账户,则可以使用AWS管理控制台启用MapReduce并在不到10分钟的时间内启动并运行示例应用程序。我做了预打包的字数统计示例应用程序,它返回大

MapReduce入门(一)—— MapReduce概述 + WordCount案例实操

MapReduce入门(一)——MapReduce概述文章目录MapReduce入门(一)——MapReduce概述1.1MapReduce定义1.2MapReduce优缺点1.2.1优点1)MapReduce易于编程2)良好的扩展性3)高容错性4)适合PB级以上海量数据的离线处理1.2.2缺点1)不擅长实时计算2)不擅长流式计算3)不擅长DAG(有向无环图)计算1.3MapReduce核心编程思想1.4MapReduce进程1.5官方WordCount源码1.6常用数据序列化类型1.7MapReduce编程规范1.Mapper阶段2.Reducer阶段3.Driver阶段1.8WordCou

hadoop - pig 0.13 错误 2998 : Unhandled internal error. org/apache/hadoop/mapreduce/task/JobContextImpl

刚刚安装了Pig0.13,我正在尝试将它与Hadoop1.1.2一起使用。(Pig文档指出Pig0.13与Hadoop1.1.2兼容)。根据Pig安装说明,我设置了$PIG_CLASSPATH指向定义了core-site.xml、hdfs-site.xml和mapred-site.xml的/etc/hadoop。Hadoop集群功能正常,可以很好地处理非Pig作业。根据下面的错误描述,我了解到Pig无法找到它正在寻找的JobContextImpl类。根据Hadoop1.1.2API文档,我不认为“任务”是“mapreduce”包的子包。我尝试将hadoop-core-1.1.2.jar

java - MapReduce 输出 ArrayWritable

我正在尝试从一个简单的MapReduce任务中的ArrayWritable获取输出。我发现了几个有类似问题的问题,但我无法在自己的代码中解决问题。所以我期待着你的帮助。谢谢:)!输入带有一些句子的文本文件。输出应该是:>Example:Hello52我在工作中得到的输出是:helloWordLength_V01$IntArrayWritable@221cf05testWordLength_V01$IntArrayWritable@799e525a我认为问题出在IntArrayWritable的子类中,但我没有得到正确的更正来解决这个问题。顺便说一句,我们有Hadoop2.5,我使用以下

java - 在 Hadoop MapReduce 作业中链接 Multi-Reducer

现在我有一个4阶段的MapReduce作业,如下所示:Input->Map1->Reduce1->Reducer2->Reduce3->Reduce4->Output我注意到Hadoop中有一个ChainMapper类,它可以将多个映射器链接成一个大映射器,并节省映射阶段之间的磁盘I/O成本。还有一个ChainReducer类,但它不是真正的“Chain-Reducer”。它只能支持以下工作:[Map+/ReduceMap*]我知道我可以为我的任务设置四个MR作业,并为最后三个作业使用默认映射器。但这会消耗大量磁盘I/O,因为reducer应该将结果写入磁盘以让后面的映射器访问它。是否

unit-testing - hadoop mapreduce 作业的最佳单元测试工具/方法

我是新来的,但需要知道对通过ApacheHadoop编写的程序进行单元测试的最佳方法。我知道我们可以用jUnit方式为map和reduce方法中的逻辑编写单元测试用例。我们也可以对涉及的其他逻辑做同样的事情,但这并不能保证它经过良好的测试并且可以在实际运行环境中工作。我读过关于MRUnit的文章,但它似乎也与我上面提到的类似,但方式更成熟。但它也不会作为真正的mapreduce工作运行,而是一个被mock的工作。任何帮助,将不胜感激。谢谢。 最佳答案 你当然有其他选择。稍微用谷歌搜索一下,你自己就会得到它。在这里,我为您做到了!这是

hadoop - wordCount mapReduce 作业如何与 apache tez 在 hadoop yarn 集群上运行?

作为tez的github页面说,tez非常简单,其核心只有两个组件:数据处理管道引擎,以及数据处理应用程序的主控程序,可以将上述任意数据处理“任务”放在一个任务DAG中那么我的第一个问题是,现有的mapreduce作业(例如tez-examples.jar中存在的wordcount)如何转换为任务DAG?在哪里?或者他们不...?我的第二个也是更重要的问题是关于这部分的:tez中的每个“任务”都有以下内容:用于使用键/值对的输入。处理它们的处理器。输出以收集处理后的键/值对。谁负责在tez任务之间拆分输入数据?它是用户提供的代码还是Yarn(资源管理器)甚至是tez本身?输出阶段的问题

hadoop - 运行 Hadoop MapReduce,是否可以调用 HDFS 外部的外部可执行文件

在我的映射器中,我想调用安装在HDFS之外的工作节点上的外部软件。这可能吗?执行此操作的最佳方法是什么?我知道这可能会带走MapReduce的一些优势/可扩展性,但我想在HDFS中进行交互,并在我的映射器中调用编译/安装的外部软件代码来处理一些数据。 最佳答案 Mappers(和reducers)就像盒子上的任何其他进程一样-只要TaskTracker用户有权运行可执行文件,这样做就没有问题。有几种调用外部进程的方法,但由于我们已经在J​​ava中,ProcessBuilder似乎是一个合乎逻辑的起点。编辑:刚刚发现Hadoop有一

java - 由于容器启动的 AM 容器异常, headless (headless)环境中的 MapReduce 作业失败 N 次

在MacOSX的headless(headless)环境中运行mapreduce作业时(例如,当以特定用户身份通过​​ssh运行作业时),我得到以下异常或类似的异常......2013-12-0415:08:28,513WARNorg.apache.hadoop.yarn.server.resourcemanager.RMAuditLogger:USER=hadoopOPERATION=ApplicationFinished-FailedTARGET=RMAppManagerRESULT=FAILUREDESCRIPTION=Appfailedwithstate:FAILEDPERMI