elastic-mapreduce-cli

hadoop - 配置单元 cli 中的 "Add <directory>"

我想要类似的东西$hive>ADDFILE;添加一个目录到hive的工作目录。我正在使用配置单元0.7。我需要这个来添加python包以供mapper/reducer脚本使用。我有哪些选择？最佳答案对于0.7.1，您可以使用shell转义符(!)来运行!hadoopfs-mkdir或“dfs”命令dfs-mkdir.查看cliwikipage获取更多信息。不确定这些是否在0.7中。关于hadoop-配置单元cli中的"Add"，我们在StackOverflow上找到一个类似的问题：

hadoop - 运行 MRUnit 时出现 java.lang.NoSuchMethodError : org. apache.hadoop.mapreduce.TaskAttemptID

我正在尝试使用Clouderahadoop发行版开发mr-job。我正在使用api版本2。我确实遇到了mr-unit的麻烦。请建议该怎么做。我已经使用了标准的原型(prototype)并且完全迷失了，我不明白问题的根源在哪里。这是我的依赖项:com.cloudera.hadoophadoop-core0.20.2-320providedcom.cloudera.hadoophadoop-mrunit0.20.2-320test这是我的测试代码:@TestpublicvoidtestEmptyOutput()throwsException{for(Stringline:linesFrom

时出 hadoop gt lt mapreduce cloudera

java - 如何对 hadoop mapreduce 作业的键使用相似度算法

我需要实现以下问题:我正在获取类型的数据publicclassData{privateStringkey;privateStringvalueData;}我需要编写一个mapreduce作业来获取所有unique键，每个键都有一个(随机)valueData。对于hadoop来说听起来很简单，是的，我知道如何实现它。但真正的问题是，我还需要减少所有“similar”键。并且输出应该是与dataValue之一相似的key之一在hadoop中实现它的最佳方式(以及如何)是什么？我还希望能够灵活地更改相似度算法。最佳答案看看MinHas

mapreduce hadoop strong section code java cascading

hadoop - Pig Mapreduce 计算连续的字母

我需要数字母而不是数单词。但是我在使用ApachePig版本0.8.1-cdh3u1实现这个时遇到了问题给定以下输入:989;850;abcccc29;395;aabbcc输出应该是:989;850;a;1989;850;b;1989;850;c;429;395;a;229;395;b;229;395;c;2这是我尝试过的:A=LOAD'input'usingPigStorage(';')as(x:int,y:int,content:chararray);B=foreachAgeneratex,y,FLATTEN(STRSPLIT(content,'(?A、B和C可以转储，但“转储D”

Mapreduce hadoop int code import apache-pig

hadoop - 具有数据挖掘功能的 MapReduce 项目

我计划做一个涉及Hadoop库的MapReduce项目，并在AWS上传的大数据上对其进行测试。我还没有最终确定一个想法。但我确信它会涉及某种数据处理、MapReduce设计模式以及可能的图形算法、Hive和PigLatin。如果有人能给我一些想法，我将不胜感激。我的想法很少。最后我必须处理一些大型数据集并获取一些信息并得出一些结论。为此，我之前使用Weka进行数据挖掘(使用树)。但我不确定这是否是我现在唯一可以使用的东西(使用Weka)。有没有其他方法可以让我处理大数据并从大数据集得出结论？另外，我怎样才能在其中涉及图表？基本上我想做一个研究项目，但我不确定我到底应该做什么以及它应该是

MapReduce 挖掘 strong 大数 section hadoop parallel-processing data-mining

hadoop - 如何在cloudera上通过CLI连接到hive

我们从HUE运行CDH4.1.1/BeeswaxHive运行良好，/beeswax/tables显示所有表。我想使用hiveCLI列出所有表:overlord@overlord-datanode1:~$hiveLogginginitializedusingconfigurationinfile:/etc/hive/conf.dist/hive-log4j.propertiesHivehistoryfile=/tmp/overlord/hive_job_log_overlord_201211280646_1426149164.txthive>SHOWTABLES;OKTimetaken:

何在 cloudera section hive overlord hadoop

hadoop - 如何指定 Hadoop MapReduce 作业生成的目录的权限？

当我运行HadoopMapReduce作业时，生成的所有目录都使用“rwxr_xr_x”作为权限。我想将它们更改为“rwxrwxrwx”，该怎么做？最佳答案您可以使用hadoopfs-chmod777your/directory在事后更改它。或者在运行作业之前创建目录，并相应地设置它们的权限。您还可以设置dfs.umask值，该值将管理创建目录时使用的权限。参见http://hadoop.apache.org/docs/r0.20.2/hdfs_permissions_guide.html

MapReduce hadoop section hdfs_permissions_guide permissions

hadoop - 什么时候应该关闭 MapReduce 作业中的 HTablePool？

我正在尝试使用HTablePool来减少HTable实例的创建。但是，我不知道应该将HTablePool.close()放在我的映射器/缩减器中的什么地方。应用运行时，会调用多个mappers、reducer，可以运行在多台机器上。为了获得最佳性能，我认为每台机器应该有一个HTablePool并且close()调用应该延迟到整个应用程序关闭。但是我们如何告诉这些机器关闭它们的池？欢迎任何建议! 最佳答案在Map/Reduce作业的上下文中，我认为使用HTablePool不会给您带来显着的改进。HTablePool带给你的是:线程安

HTablePool MapReduce code section hadoop hbase

json - Hadoop:无法运行 mapreduce 程序 ..java.io.IOException:error=12

我正在尝试在hadoop中运行mapreduce程序。基本上它接受一个文本文件作为输入，其中每一行都是一个json文本。我使用简单的json在我的映射器中解析这些数据，而reducer做一些其他的事情。我在hadoop/lib文件夹中包含了简单的jsonjar文件。这是下面的代码packageorg.myorg;importjava.io.IOException;importjava.util.Iterator;importjava.util.*;importorg.json.simple.JSONArray;importorg.json.simple.JSONObject;impor

IOException mapreduce hadoop java apache json hdfs

c# - 在 MapReduce 中使用 Windows Azure 存储执行 Reduce 函数后无法看到最终结果

我正在使用c#.net编写map和reduce函数。我基本上遵循给出的示例here最终命令Hadoopjarhadoop-streaming.jar-files"hdfs:///example/apps/map.exe,hdfs:///example/apps/reduce.exe"-input"/example/apps/data.csv"-output"/example/apps/output.txt"-mapper"map.exe"-reducer"reduce.exe"作业成功运行现在从交互式JS模式，如果我写js>#cat/example/apps/output.txtcat

c#MapReduce code example output hadoop azure-storage hadoop-streaming

213 214 215216217 218 219