mapreduce_shuffle

hadoop - 具有数据挖掘功能的 MapReduce 项目

我计划做一个涉及Hadoop库的MapReduce项目，并在AWS上传的大数据上对其进行测试。我还没有最终确定一个想法。但我确信它会涉及某种数据处理、MapReduce设计模式以及可能的图形算法、Hive和PigLatin。如果有人能给我一些想法，我将不胜感激。我的想法很少。最后我必须处理一些大型数据集并获取一些信息并得出一些结论。为此，我之前使用Weka进行数据挖掘(使用树)。但我不确定这是否是我现在唯一可以使用的东西(使用Weka)。有没有其他方法可以让我处理大数据并从大数据集得出结论？另外，我怎样才能在其中涉及图表？基本上我想做一个研究项目，但我不确定我到底应该做什么以及它应该是

MapReduce 挖掘 strong 大数 section hadoop parallel-processing data-mining

hadoop - 如何指定 Hadoop MapReduce 作业生成的目录的权限？

当我运行HadoopMapReduce作业时，生成的所有目录都使用“rwxr_xr_x”作为权限。我想将它们更改为“rwxrwxrwx”，该怎么做？最佳答案您可以使用hadoopfs-chmod777your/directory在事后更改它。或者在运行作业之前创建目录，并相应地设置它们的权限。您还可以设置dfs.umask值，该值将管理创建目录时使用的权限。参见http://hadoop.apache.org/docs/r0.20.2/hdfs_permissions_guide.html

MapReduce hadoop section hdfs_permissions_guide permissions

hadoop - 什么时候应该关闭 MapReduce 作业中的 HTablePool？

我正在尝试使用HTablePool来减少HTable实例的创建。但是，我不知道应该将HTablePool.close()放在我的映射器/缩减器中的什么地方。应用运行时，会调用多个mappers、reducer，可以运行在多台机器上。为了获得最佳性能，我认为每台机器应该有一个HTablePool并且close()调用应该延迟到整个应用程序关闭。但是我们如何告诉这些机器关闭它们的池？欢迎任何建议! 最佳答案在Map/Reduce作业的上下文中，我认为使用HTablePool不会给您带来显着的改进。HTablePool带给你的是:线程安

HTablePool MapReduce code section hadoop hbase

Hadoop reducer 错误 : "Shuffle Error: Exceeded the abort failure limit; bailing-out"

我有一个hadoop0.20map/reduce作业，过去运行得很好。最近几天卡在reduce阶段16.66%，我在jobtracker查看reduce任务时看到如下错误；ShuffleError:Exceededtheabortfailurelimit;bailing-out.谁能告诉我这是什么意思，也许能给我指出正确的方向，这样我就能弄清楚如何解决这个问题？最佳答案此错误对应于reducer在报告它并映射到属性mapreduce.reduce.shuffle.maxfetchfailures之前尝试获取映射输出的最大次数。您

bailing-out amp section reduce strong hadoop mapreduce

json - Hadoop:无法运行 mapreduce 程序 ..java.io.IOException:error=12

我正在尝试在hadoop中运行mapreduce程序。基本上它接受一个文本文件作为输入，其中每一行都是一个json文本。我使用简单的json在我的映射器中解析这些数据，而reducer做一些其他的事情。我在hadoop/lib文件夹中包含了简单的jsonjar文件。这是下面的代码packageorg.myorg;importjava.io.IOException;importjava.util.Iterator;importjava.util.*;importorg.json.simple.JSONArray;importorg.json.simple.JSONObject;impor

IOException mapreduce hadoop java apache json hdfs

c# - 在 MapReduce 中使用 Windows Azure 存储执行 Reduce 函数后无法看到最终结果

我正在使用c#.net编写map和reduce函数。我基本上遵循给出的示例here最终命令Hadoopjarhadoop-streaming.jar-files"hdfs:///example/apps/map.exe,hdfs:///example/apps/reduce.exe"-input"/example/apps/data.csv"-output"/example/apps/output.txt"-mapper"map.exe"-reducer"reduce.exe"作业成功运行现在从交互式JS模式，如果我写js>#cat/example/apps/output.txtcat

c#MapReduce code example output hadoop azure-storage hadoop-streaming

python - Hadoop:如何在 Python MapReduce 中包含第三方库

这个问题在这里已经有了答案:HowcanIincludeapythonpackagewithHadoopstreamingjob?(5个答案)关闭9年前。我正在用Python编写MapReduce作业，并想使用一些第三方库，例如chardet。我知道我们可以使用选项-libjars=...将它们包含在javaMapReduce中。但是如何在PythonMapReduce作业中包含第三方库？谢谢!

中包含第 section notice MapReduce python hadoop

hadoop - 在 HBase 上运行 MapReduce 会出现 Zookeeper 错误

我正在用Hadoop和HBase做一个测试项目。目前集群有2个Ubuntu虚拟机托管在Windows机器上。我能够使用以下HBaseJavaAPI配置远程执行PUT、QUERY和DELETE操作(在我的主机中)config=HBaseConfiguration.create();config.set("hbase.zookeeper.quorum","192.168.56.90");config.set("hbase.zookeeper.property.clientPort","2222");当我尝试使用与上述相同的配置在Windows上运行HBaseMapReduce作业时，出现以

MapReduce Zookeeper INFO section hadoop hbase apache-zookeeper

Hadoop Mapreduce 在启用权限管理的情况下失败

我在我的hadoop集群中启用了权限管理，但我在使用pig发送作业时遇到了问题。这是场景:1-我有hadoop/hadoop用户2-我有运行PIG脚本的myuserapp/myuserapp用户。3-我们将路径/myapp设置为myuserapp所有4-我们将pig.temp.dir设置为/myapp/pig/tmp但是当我们pig尝试运行作业时，我们得到了以下错误:job_201303221059_0009all_actions,filtered,raw_dataDISTINCTMessage:Jobfailed!Error-Jobinitializationfailed:org.a

Mapreduce Hadoop property gt lt posix hdfs

hadoop - 能否自定义 Hadoop 的 Shuffle/Sort(或分区)阶段来执行图形遍历？

我还在学习MapReduce框架，具体由Hadoop实现，我想知道是否可以修改它来执行以下任务:Map()函数将发出(key,value)对，其键是大小为2的数组，比如int[2]。我希望将包含两个共同整数中的任何一个的每一对映射到同一个reducer。例如，如果Map()发出:([2,3],4),([2,4],5),([6,5],2),([5,7],1)，那么Reduce1应该接收前两对，Reduce2接收后两对(前两对共享2，后两对共享5)。这可以看作是一个连通分量问题，其中顶点是int[]中的整数，边在同一int[]中的任意两个整数之间共享。最佳答案

自定 Shuffle section code pre hadoop mapreduce partitioning graph-traversal

112 113 114115116 117 118