mapReduce_草庐IT

algorithm - 使用 Map Reduce 的深度优先搜索

我已经在HadoopMapReduce(BreathFirstSearch)中成功实现了最短路径算法。但是我有一个问题:是否可以使用Hadoopmapreduce进行图形遍历“深度优先搜索”？任何链接..？最佳答案深度优先搜索的性质使其不适用于mapreduce作业。因为在进入另一条路径之前，您只遵循一条严格的路径。这导致您无法正确使用hadoop提供的可伸缩性。我不知道有什么好的工作实现，而且我很确定您不会找到一个以良好方式使用MapReduce范例的实现。如果您尝试自己在hadoop中实现图形算法，您可能想看看一些有用的框架

hadoop - 为什么即使使用单个 reducer 也会调用 Partitioner

如果我们将MRJob配置为仅使用单个reducer运行，那么似乎不需要调用Partitioner是合乎逻辑的。不过，我只是试了一下，看起来即使作业配置了单个reducer，分区程序也会被调用。知道为什么需要这样做吗？最佳答案这是因为将键/值对分配给特定的reducer是扮演分区器角色的类的责任。即使只有一个reducer，你仍然需要一个分区器来将键/值对分配给那个reducer。任何默认值的存在或if-there's-only-one-reducer逻辑有效地将分区分配行为分配到分区程序之外的地方，这不是真正好的OO设计。

Partitioner 即使 section reducer 配给 hadoop mapreduce

hadoop - MapReduce 错误 UserGroupInformation - PriviledgedActionException

我正在尝试在我的本地机器上运行以下MapReduce代码:https://github.com/Jeffyrao/warcbase/blob/extract-links/src/main/java/org/warcbase/data/ExtractLinks.java但是，我遇到了这个异常:[main]ERRORUserGroupInformation-PriviledgedActionExceptionas:jeffy(auth:SIMPLE)cause:java.io.IOException:java.util.concurrent.ExecutionException:java.

PriviledgedActionException UserGroupInformation java hadoop apache mapreduce

hadoop - 在 hadoop 中处理大文件时出现 Shuffle、merger 和 fetcher 错误

我正在运行一个类似mapreduce的字数统计作业，处理200个文件，每个文件大小为1Gb。我在一个hadoop集群上运行该作业，该集群包含4个数据节点(每个2cpu)，内存为8Gb，空间约为200G。我尝试了各种配置选项，但每次我的工作失败时，都会出现InMemoryShuffle、OnDiskShuffle、InMemorymerger、OnDiskMerger或Fetcher错误。映射器输出的大小与输入文件的大小相当，因此，为了最小化映射器输出大小，我对mapreduce输出使用BZip2压缩。然而，即使使用压缩的map输出，我仍然会在reducer阶段遇到错误。我使用4个red

时出大文 mapreduce hadoop apache configuration out-of-memory shuffle

scala - Scalding:解析带 header 的逗号分隔数据

我有以下格式的数据:"header1","header2","header3",..."value11","value12","value13",..."value21","value22","value23",.......在Scalding中解析它的最佳方法是什么？我总共有50多个专栏，但我只对其中的一些感兴趣。我尝试使用Csv("file")导入它，但这不起作用。想到的唯一解决方案是使用TextLine手动解析它并忽略偏移量==0的行。但我相信一定有更好的解决方案。最佳答案最后我通过如下手动解析每一行解决了它:deftip

Scalding header 34 section value scala parsing hadoop mapreduce

hadoop - MapReduce 上的 HyperLogLog 正确性

关于HyperLogLog算法一直困扰我的一点是它对key散列的依赖。我遇到的问题是，这篇论文似乎假设我们在每个分区上都有一个完全随机的数据分布，但是在它经常使用的上下文中(MapReduce风格的作业)，东西通常是按它们的哈希值分布的，所以所有重复的键都会在同一个分区上。对我来说，这意味着我们实际上应该添加HyperLogLog生成的基数，而不是使用某种平均技术(在我们通过散列与HyperLogLog散列相同的东西来分区的情况下)。所以我的问题是:这是HyperLogLog的真正问题还是我没有足够详细地阅读论文最佳答案如果您对

HyperLogLog MapReduce section code hadoop hash

hadoop - dfs.blocksize、file.blocksize、kfs.blocksize 等对 hadoop mapreduce 作业有什么影响？

当我查看hadoop(版本0.21.0)mapreduce作业的job.xml文件时，我发现存在多个blocksize设置:dfs.blocksize=134217728(即128MB)file.blocksize=67108864(即64MB)kfs.blocksize=67108864s3.blocksize=67108864s3native.blocksize=67108864ftp.blocksize=67108864我期待一些答案来解释以下相关问题:在这种情况下，dfs、file、kfs、s3等是什么意思？它们之间有什么区别？它们在运行mapreduce作业时有什么影响？非常

blocksize hadoop code section mapreduce

hadoop - 请帮助Hadoop中的Shuffle和Sorting的必要性是什么？

在一个普通的mapreducewordcount程序中，我们是否需要设置shuffle和sort的方法，或者框架会处理这个？最佳答案框架会处理这个。洗牌是将数据从映射器传输到缩减器的过程，缩减器按中间键(词)的升序(字典顺序)缩减数据。您可以更改默认设置，但没有必要在wordcount程序中这样做。您只需要设置一个映射器和一个缩减器以及可选的(但确实有助于提高速度)一个组合器。甚至不需要自己实现映射器和缩减器，因为hadoop自带了这样的字数映射器(TokenCounterMapper)和缩减器(IntSumReducer，也可

必要性 Shuffle 射器缩减 section hadoop mapreduce bigdata

java - 比较 MapReduce 性能

我已经在一个节点上安装了hadoopmapreduce，我遇到了前十个问题。假设我有10k对数据(键，值)并搜索10个具有最佳值的数据。实际上，我创建了一个简单的项目来迭代整个数据，我只需要几分钟就可以得到答案。然后，我使用十大设计模式创建mapreduce应用程序来解决同样的问题，我需要4个多小时才能得到答案。(很明显，我用的是同一个机器，同一个算法排序)我认为，这可能是因为mapreduce需要更多服务才能运行，需要更多网络Activity，需要更多努力来读取和写入hdfs。有任何其他因素可以证明mapreduce(在那种情况下)比不使用mapreduce慢吗？

MapReduce java section 射器 performance hadoop

hadoop - 将输出文件添加到 Mapreduce 中的现有输出目录

我想在每次运行作业时将mapreduce程序的输出文件添加到同一目录，方法是在文件名末尾附加时间戳。目前我可以在文件输出文件的末尾附加时间戳，但我无法找到如何将文件添加到同一输出目录而不是每次都覆盖它。最佳答案您可以将输出文件写入临时文件夹，并在作业结束后将它们移动到目标文件夹。将所有文件从一个文件夹移动到另一个文件夹的方法示例:publicstaticvoidmoveFiles(Pathfrom,Pathto,Configurationconf)throwsIOException{FileSystemfs=from.getFi

Mapreduce hadoop section file from