草庐IT

affordance_map

全部标签

unit-testing - 如何让 HBaseTestingUtility 在 map reduce 作业中查找类?

我们正在使用cdh3u4、Hadoop和HBase。在启动HBaseTestingUtility提供的miniMapReduceCluster之后,我正在尝试运行一个单元测试以启动MapReduce作业。作业失败并在map和reducer任务stderr日志中显示:Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/hadoop/mapred/ChildCausedby:java.lang.ClassNotFoundException:org.apache.hadoop.mapred.Childatjava.

Hadoop:减少端连接卡在 map 上 100% 减少 100% 并且永远不会完成

我是Hadoop的初学者,最近我正在尝试运行reduce-sidejoinexample但它卡住了:Map100%andReduce100%但永远不会完成。进度、日志、代码、示例数据和配置文件如下:进度:12/10/0215:48:06INFOutil.NativeCodeLoader:Loadedthenative-hadooplibrary12/10/0215:48:06WARNsnappy.LoadSnappy:Snappynativelibrarynotloaded12/10/0215:48:06INFOmapred.FileInputFormat:Totalinputpath

eclipse - 如何在windows的eclipse中配置map reduce插件(Hadoop安装在Linux服务器上)

我正在尝试从Windows连接到hadoop集群不属于hadoop集群的机器..基本上我们在linux服务器机器上安装了hadoop..所以没有GUI可用的。因此,出于这个原因,我们要做的是运行eclipse在Windows机器上使用hadoopeclipse插件..并尝试从Windows机器。我不知道如何运行mapreduce从这台windows机器到hadoop主节点的程序.. 最佳答案 您可以通过安装Cygwin在windows中拥有Map-Reduce的开发环境您将需要:Cygwin配置ssh守护进程启动SSH守护进程设置授

hadoop - Map 任务写入 Hive 临时文件夹时权限被拒绝

我在UbuntuPrecise12.04x64机器上使用ClouderaCDH4.1。我使用ClouderaManager免费版进行了顺利安装(在我自己安装时遇到了一些困难)。但是,我仍然无法让Hive工作。现在我可以向它发出HiveQL命令来创建表,并加载本地数据(示例中的原始表)。但是当我尝试将数据插入另一个表(具有适当的serde和存储的表)时,由于本地文件夹权限而失败。org.apache.hadoop.hive.ql.metadata.HiveException:java.io.IOException:Mkdirsfailedtocreatefile:/home/yaboul

map - PIG UDF 加载 .gz 文件失败

我编写了UDF以将文件加载到Pig中。它适用于加载文本文件,但是,现在我还需要能够读取.gz文件。我知道我可以解压缩文件然后处理,但我只想读取.gz文件而不解压缩它。我的UDF从LoadFunc扩展,然后在我的自定义输入文件MyInputFileextendsTextInputFormat中。我还实现了MyRecordReader。只是想知道extendsTextInputFormat是否是问题所在?我尝试了FileInputFormat,仍然无法读取文件。有人写过UDF从.gz文件读取数据吗? 最佳答案 TextInputForm

java - 在 Hadoop map-reduce 中对连接的数据进行分组

我有两种不同类型的文件,一种是用户列表。它具有以下结构:用户ID、姓名、国家/地区ID第二种是订单列表:OrderID,UserID,OrderSum每个用户都有很多订单。我需要编写map-reducehadoop作业(在java中)并接收具有以下结构的输出:CountryID,NumOfUsers,MinOrder,MaxOrder编写两个不同的映射器(针对每种文件类型)和一个缩减器以便通过UserID连接来自两个文件的数据并接收以下结构对我来说不是问题:UserID,CountryID,UsersMinOrder,UsersMaxOrder但我不明白如何按CountryID对数据进

hadoop - 在 Map reduce 中每次修改代码都需要创建一个 jar 文件

我正在Hadoop单节点集群中运行一个程序(MapReduce)。经常对MapReduce逻辑进行一些修改。我正在使用EclipseIDE。每次修改逻辑后,我都会创建一个jar文件来检查Hadoop中的Mapreduce作业。每次修改MapReduce逻辑后都创建一个jar文件有点繁琐。有没有更简单的方法来在每次进行更改时创建jar文件?请指教。 最佳答案 不清楚是您必须制作jar文件这一事实还是制作jar的过程似乎太困难的问题。首先,您必须制作一个jar文件才能将作业提交到Hadoop。没有办法解决这个问题。其次,为了简化创建ja

hadoop - 在 hadoop Map reduce 中读取带有工作表的 Excel 文件

我有一个excel文件,在一个文件中包含大约20张纸。我想通过hadoop中的mapreduce程序读取它。任何人都可以帮助我解决这个问题。请建议我如何阅读它...提前致谢。 最佳答案 您可能会发现ApacheTika库可用于您的映射器以解析您的Excel文件。 关于hadoop-在hadoopMapreduce中读取带有工作表的Excel文件,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/ques

java - Hadoop Map Reduce 查询

我试图使用HADOOPMadReduce来计算所有权重的总和图中每个节点的传入边。输入采用.tsv格式,如下所示:srctgt权重X1021X2001X1235Y2451Y1011Z992X1453Y241一个215......预期的输出是:源SUM(权重)X10是3Z2一个5....我使用了来自hadoop(http://www.cloudera.com/content/cloudera/en/documentation/hadoop-tutorial/CDH5/Hadoop-Tutorial/ht_wordcount1_source.html?scroll=topic_5_1)的W

java - 两个 map 缩减作业并将每个作业的缩减值加入一个包含两个值的列表

我正在编写一个MapReduce程序,要求我找到一个节点(000-999)的入站和出站链接数,本质上是一个网络图形处理器。我需要返回一个特定的节点作为键,每个文档的出度和入度作为值。例如,示例文本文件:000002001002002000001000应该返回:000120012000212按照我的逻辑,似乎我需要创建两个mapreduce作业,第一个传入一个值为节点对(例如000002)的LongWritable键,计算每个节点的出站链接数并在reducer阶段结束时返回类似(0001)的内容。然后我将通过翻转节点对(例如000002变为002000)并找到那些出站链接的计数(在上面的