草庐IT

GLOBAL_MAP

全部标签

hadoop - Map 任务写入 Hive 临时文件夹时权限被拒绝

我在UbuntuPrecise12.04x64机器上使用ClouderaCDH4.1。我使用ClouderaManager免费版进行了顺利安装(在我自己安装时遇到了一些困难)。但是,我仍然无法让Hive工作。现在我可以向它发出HiveQL命令来创建表,并加载本地数据(示例中的原始表)。但是当我尝试将数据插入另一个表(具有适当的serde和存储的表)时,由于本地文件夹权限而失败。org.apache.hadoop.hive.ql.metadata.HiveException:java.io.IOException:Mkdirsfailedtocreatefile:/home/yaboul

map - PIG UDF 加载 .gz 文件失败

我编写了UDF以将文件加载到Pig中。它适用于加载文本文件,但是,现在我还需要能够读取.gz文件。我知道我可以解压缩文件然后处理,但我只想读取.gz文件而不解压缩它。我的UDF从LoadFunc扩展,然后在我的自定义输入文件MyInputFileextendsTextInputFormat中。我还实现了MyRecordReader。只是想知道extendsTextInputFormat是否是问题所在?我尝试了FileInputFormat,仍然无法读取文件。有人写过UDF从.gz文件读取数据吗? 最佳答案 TextInputForm

java - 在 Hadoop map-reduce 中对连接的数据进行分组

我有两种不同类型的文件,一种是用户列表。它具有以下结构:用户ID、姓名、国家/地区ID第二种是订单列表:OrderID,UserID,OrderSum每个用户都有很多订单。我需要编写map-reducehadoop作业(在java中)并接收具有以下结构的输出:CountryID,NumOfUsers,MinOrder,MaxOrder编写两个不同的映射器(针对每种文件类型)和一个缩减器以便通过UserID连接来自两个文件的数据并接收以下结构对我来说不是问题:UserID,CountryID,UsersMinOrder,UsersMaxOrder但我不明白如何按CountryID对数据进

hadoop - 在 Map reduce 中每次修改代码都需要创建一个 jar 文件

我正在Hadoop单节点集群中运行一个程序(MapReduce)。经常对MapReduce逻辑进行一些修改。我正在使用EclipseIDE。每次修改逻辑后,我都会创建一个jar文件来检查Hadoop中的Mapreduce作业。每次修改MapReduce逻辑后都创建一个jar文件有点繁琐。有没有更简单的方法来在每次进行更改时创建jar文件?请指教。 最佳答案 不清楚是您必须制作jar文件这一事实还是制作jar的过程似乎太困难的问题。首先,您必须制作一个jar文件才能将作业提交到Hadoop。没有办法解决这个问题。其次,为了简化创建ja

hadoop - 在 hadoop Map reduce 中读取带有工作表的 Excel 文件

我有一个excel文件,在一个文件中包含大约20张纸。我想通过hadoop中的mapreduce程序读取它。任何人都可以帮助我解决这个问题。请建议我如何阅读它...提前致谢。 最佳答案 您可能会发现ApacheTika库可用于您的映射器以解析您的Excel文件。 关于hadoop-在hadoopMapreduce中读取带有工作表的Excel文件,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/ques

java - Hadoop Map Reduce 查询

我试图使用HADOOPMadReduce来计算所有权重的总和图中每个节点的传入边。输入采用.tsv格式,如下所示:srctgt权重X1021X2001X1235Y2451Y1011Z992X1453Y241一个215......预期的输出是:源SUM(权重)X10是3Z2一个5....我使用了来自hadoop(http://www.cloudera.com/content/cloudera/en/documentation/hadoop-tutorial/CDH5/Hadoop-Tutorial/ht_wordcount1_source.html?scroll=topic_5_1)的W

java - 两个 map 缩减作业并将每个作业的缩减值加入一个包含两个值的列表

我正在编写一个MapReduce程序,要求我找到一个节点(000-999)的入站和出站链接数,本质上是一个网络图形处理器。我需要返回一个特定的节点作为键,每个文档的出度和入度作为值。例如,示例文本文件:000002001002002000001000应该返回:000120012000212按照我的逻辑,似乎我需要创建两个mapreduce作业,第一个传入一个值为节点对(例如000002)的LongWritable键,计算每个节点的出站链接数并在reducer阶段结束时返回类似(0001)的内容。然后我将通过翻转节点对(例如000002变为002000)并找到那些出站链接的计数(在上面的

javascript - 如何在 hadoop map reduce 编程框架中打印中间数据

假设我们有一个包含test::的文件hihowareyouhowisyourjobhowisyourfamilywhatishadoophi映射器类的期望输出:hadoop[1]hi[1,1]how[1,1,1]is[1,1,1]your[1,1]对于每一个不同的字符串都是这样的...... 最佳答案 输入文件::德拉维类格洛尔萨钦孟买多尼兰契斋浦尔金奈多尼船新德里甘比尔德里甘比尔加尔各答reducer输出::DravidBanglore,JaipurDhoniRanchi,ChennaiGambhirDelhi,CalcuttaS

hadoop - Inputsplit、RecordReader & Map 实例和 Mapper 之间的数据流

如果我有一个包含1000行的数据文件......并且我在我的字数统计程序的map方法中使用了TextInputFormat。因此,数据文件中的每一行都将被视为一个拆分。RecordReader会将每一行(或拆分)作为(Key,Value)对提供给map()方法。根据我的理解..1000次map()方法应该为每一行或记录执行。表示将运行多少个Mappers?抱歉,在这里混淆了。map()方法只是mapper的一个实例,对吧。那么每个Mapper任务有多少个map实例是根据什么决定的???注意:当我为1000行数据执行WordCountMapReduce程序时。我看到Mappers的数量为

hadoop - 在 Oozie 中为 Map-Reduce 作业指定驱动程序

${jobTracker}${nameNode}mapred.input.dir${inputDir}mapred.output.dir${outputDir}mapred.job.queue.name${queueName}mapred.reduce.tasks${numberofReducers}mapred.reducer.new-apitruemapred.mapper.new-apitrueMap/Reducefailed,errormessage[${wf:errorMessage(wf:lastErrorNode())}]我正在尝试使用Oozie运行map-reduce作