草庐IT

elastic-mapreduce-cli

全部标签

hadoop - 配置单元 cli 中的 "Add <directory>"

我想要类似的东西$hive>ADDFILE;添加一个目录到hive的工作目录。我正在使用配置单元0.7。我需要这个来添加python包以供mapper/reducer脚本使用。我有哪些选择? 最佳答案 对于0.7.1,您可以使用shell转义符(!)来运行!hadoopfs-mkdir或“dfs”命令dfs-mkdir.查看cliwikipage获取更多信息。不确定这些是否在0.7中。 关于hadoop-配置单元cli中的"Add",我们在StackOverflow上找到一个类似的问题:

hadoop - 运行 MRUnit 时出现 java.lang.NoSuchMethodError : org. apache.hadoop.mapreduce.TaskAttemptID

我正在尝试使用Clouderahadoop发行版开发mr-job。我正在使用api版本2。我确实遇到了mr-unit的麻烦。请建议该怎么做。我已经使用了标准的原型(prototype)并且完全迷失了,我不明白问题的根源在哪里。这是我的依赖项:com.cloudera.hadoophadoop-core0.20.2-320providedcom.cloudera.hadoophadoop-mrunit0.20.2-320test这是我的测试代码:@TestpublicvoidtestEmptyOutput()throwsException{for(Stringline:linesFrom

java - 如何对 hadoop mapreduce 作业的键使用相似度算法

我需要实现以下问题:我正在获取类型的数据publicclassData{privateStringkey;privateStringvalueData;}我需要编写一个mapreduce作业来获取所有unique键,每个键都有一个(随机)valueData。对于hadoop来说听起来很简单,是的,我知道如何实现它。但真正的问题是,我还需要减少所有“similar”键。并且输出应该是与dataValue之一相似的key之一在hadoop中实现它的最佳方式(以及如何)是什么?我还希望能够灵活地更改相似度算法。 最佳答案 看看MinHas

hadoop - Pig Mapreduce 计算连续的字母

我需要数字母而不是数单词。但是我在使用ApachePig版本0.8.1-cdh3u1实现这个时遇到了问题给定以下输入:989;850;abcccc29;395;aabbcc输出应该是:989;850;a;1989;850;b;1989;850;c;429;395;a;229;395;b;229;395;c;2这是我尝试过的:A=LOAD'input'usingPigStorage(';')as(x:int,y:int,content:chararray);B=foreachAgeneratex,y,FLATTEN(STRSPLIT(content,'(?A、B和C可以转储,但“转储D”

hadoop - 具有数据挖掘功能的 MapReduce 项目

我计划做一个涉及Hadoop库的MapReduce项目,并在AWS上传的大数据上对其进行测试。我还没有最终确定一个想法。但我确信它会涉及某种数据处理、MapReduce设计模式以及可能的图形算法、Hive和PigLatin。如果有人能给我一些想法,我将不胜感激。我的想法很少。最后我必须处理一些大型数据集并获取一些信息并得出一些结论。为此,我之前使用Weka进行数据挖掘(使用树)。但我不确定这是否是我现在唯一可以使用的东西(使用Weka)。有没有其他方法可以让我处理大数据并从大数据集得出结论?另外,我怎样才能在其中涉及图表?基本上我想做一个研究项目,但我不确定我到底应该做什么以及它应该是

hadoop - 如何在cloudera上通过CLI连接到hive

我们从HUE运行CDH4.1.1/BeeswaxHive运行良好,/beeswax/tables显示所有表。我想使用hiveCLI列出所有表:overlord@overlord-datanode1:~$hiveLogginginitializedusingconfigurationinfile:/etc/hive/conf.dist/hive-log4j.propertiesHivehistoryfile=/tmp/overlord/hive_job_log_overlord_201211280646_1426149164.txthive>SHOWTABLES;OKTimetaken:

hadoop - 如何指定 Hadoop MapReduce 作业生成的目录的权限?

当我运行HadoopMapReduce作业时,生成的所有目录都使用“rwxr_xr_x”作为权限。我想将它们更改为“rwxrwxrwx”,该怎么做? 最佳答案 您可以使用hadoopfs-chmod777your/directory在事后更改它。或者在运行作业之前创建目录,并相应地设置它们的权限。您还可以设置dfs.umask值,该值将管理创建目录时使用的权限。参见http://hadoop.apache.org/docs/r0.20.2/hdfs_permissions_guide.html

hadoop - 什么时候应该关闭 MapReduce 作业中的 HTablePool?

我正在尝试使用HTablePool来减少HTable实例的创建。但是,我不知道应该将HTablePool.close()放在我的映射器/缩减器中的什么地方。应用运行时,会调用多个mappers、reducer,可以运行在多台机器上。为了获得最佳性能,我认为每台机器应该有一个HTablePool并且close()调用应该延迟到整个应用程序关闭。但是我们如何告诉这些机器关闭它们的池?欢迎任何建议! 最佳答案 在Map/Reduce作业的上下文中,我认为使用HTablePool不会给您带来显着的改进。HTablePool带给你的是:线程安

json - Hadoop:无法运行 mapreduce 程序 ..java.io.IOException:error=12

我正在尝试在hadoop中运行mapreduce程序。基本上它接受一个文本文件作为输入,其中每一行都是一个json文本。我使用简单的json在我的映射器中解析这些数据,而reducer做一些其他的事情。我在hadoop/lib文件夹中包含了简单的jsonjar文件。这是下面的代码packageorg.myorg;importjava.io.IOException;importjava.util.Iterator;importjava.util.*;importorg.json.simple.JSONArray;importorg.json.simple.JSONObject;impor

c# - 在 MapReduce 中使用 Windows Azure 存储执行 Reduce 函数后无法看到最终结果

我正在使用c#.net编写map和reduce函数。我基本上遵循给出的示例here最终命令Hadoopjarhadoop-streaming.jar-files"hdfs:///example/apps/map.exe,hdfs:///example/apps/reduce.exe"-input"/example/apps/data.csv"-output"/example/apps/output.txt"-mapper"map.exe"-reducer"reduce.exe"作业成功运行现在从交互式JS模式,如果我写js>#cat/example/apps/output.txtcat