草庐IT

hadoop-release

全部标签

hadoop序列文件集合

reducer(带有一个Text键和一个IterableMapWritable值)如何将其所有Map输出到一个序列文件,以便保留其键上的分组?例如,假设映射器将记录发送到缩减器,如下所示:,,}>,,,}>,,}>我希望序列文件写成:key="dog"value={{,,},{,,}}key="cat"value={{,,,}}我猜想我需要创建一个实现可写的自定义值输出类,但我不确定该怎么做,因为据我所知,集合并不真正处理序列文件。我想这样做,以便下一个map/reduce阶段将作为一个单元读入与每个键关联的所有Map。TIA, 最佳答案

hadoop - 如何使用 PIG 在 Hadoop 中给定阈值进行连接

假设我有一个具有以下架构的数据集:ItemName(String),Length(long)我需要根据长度找到重复项。这在PIG中很容易做到:raw_data=LOAD...datasetgrouped=GROUPraw_databylengthitems=FOREACHgroupedGENERATECOUNT(raw_data)ascount,raw_data.name;dups=FILTERitemsBYcount>1;STOREdups....上面找到了完全相同的重复项。给定以下设置:一、100二、105三、100它会输出2,(a,c)现在我需要使用阈值查找重复项。例如,如果项目

java - 在 hadoop 的提示符下创建和运行可运行的 jar

我想尝试一下Hadoop包中提供的示例WordCount程序。因此,我在eclipse中创建了一个自定义项目,并将整个wordcount代码复制到我的自定义类中。我还在项目的构建路径中包含了所有外部Hadoopjar。最后,尝试创建一个可运行的JAR:文件->导出->Java选项卡->可运行的JAR。但是,我在创建jar时遇到错误:Exportedwithcompilewarnings:custom_project/src/custom_package/CustomWordCount.java尽管代码没有错误,但jar的创建给我带来了问题。如何解决这个问题?

hadoop - 在 JobContext 中找不到工作信息

我在远程计算机上运行Java程序并尝试使用RecordReader对象读取拆分数据,但得到的是:Exceptioninthread"main"java.io.IOException:jobinformationnotfoundinJobContext.HCatInputFormat.setInput()notcalled?我已经调用了以下内容:_hcatInputFmt=HCatInputFormat.setInput(_myJob,db,tbl);然后创建RecordReader对象:_hcatInputFmt.createRecordReader(hSplit,taskContex

hadoop - 减少许多 hive -e 调用的 hive 启动时间

我以这种方式从命令行调用hive-e数百次:cathive_script.hql|parallel--gnuhive-e'{}'hive_script.hql中的每一行都可以以任意顺序独立运行。有没有--hiveconf参数可以减少启动时间?Apache网页似乎暗示可能在https://cwiki.apache.org/confluence/display/Hive/LanguageManual+VariableSubstitution"ThisisfrustratingasHivebecomescloselycoupledwithscriptinglanguages.TheHives

java - Hadoop:mapred.LocalJobRunner:MissingResourceException

我正在尝试使用自定义记录阅读器、映射器和缩减器设置一个简单的mapReduce应用程序。直到(包括)映射器它似乎工作(调用context.write时我在控制台上写出键值对以进行测试)。然后我收到消息"14/03/0414:25:43INFOmapred.JobClient:map100%reduce0%".但在那之后我每3秒进入一个无限循环"14/03/0414:25:45INFOmapred.LocalJobRunner:"没有详细消息或其他任何内容。在我的IDE中启用记录所有异常时,在上面的每条消息之后我都会收到以下异常:Exception'java.util.MissingRe

hadoop - 将 snappy 压缩数据写入配置单元表

我已经创建了一个配置单元表,现在我想将活泼的压缩数据加载到表中。因此我做了以下事情:SETmapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.SnappyCodec;SEThive.exec.compress.output=true;SETmapreduce.output.fileoutputformat.compress=true;CREATETABLEtoydata_table(idSTRING,valueSTRING)ROWFORMATDELIMITEDFIELDSTERMI

java - 如何测量 Hadoop 中每个阶段(映射、洗牌/排序、减少)的持续时间?

Hadoop执行map、shuffle/sort和reduce阶段。我想知道每个阶段的持续时间。我的意思是,他们需要多长时间?我搜索了很多文档,但找不到任何明确的解决方案。例如,我设置配置文件并启用分析器以使用Hadoop分析器。但是没有生成结果文件“java.hprof.txt”。此外,我不确定结果文件是否包含我想要的信息。你能帮帮我吗? 最佳答案 跟踪工作进度的一种方法是查看Hadoop提供的WebUI。默认情况下,它位于http://server-adress:50030/jobtracker.jsp。您可以在其中找到有关任务

hadoop - 将 jars 复制到/home/hadoop/lib emr 时出错

我正在将我的外部jar复制到emr中的/home/hadoop/lib目录作为bootstrap进程。但是它在引导过程中显示以下错误Exceptioninthread"main"java.lang.IncompatibleClassChangeError:classcom.google.common.cache.CacheBuilder$3hasinterfacecom.google.common.base.Tickerassuperclassatjava.lang.ClassLoader.defineClass1(NativeMethod)atjava.lang.ClassLoade

hadoop - 在 cloudera impala 1.2.3 中使用 date_sub() udf 从 View 查询时出现连接重置错误

我已经编写了一个查询来在Impala中创建一个View。该View包含一个字段record_date,它是格式为yyyy-MM-ddhh:mm:ss的字符串数据类型。在尝试执行使用date_sub('2014-01-3000:00:00',1)提取先前日期记录的查询时,我收到如下错误:错误:与impalad通信时出错:TSocket读取0个字节。如果我尝试对创建的表而不是View执行相同的查询,我会得到正确的输出。感谢任何帮助。谢谢 最佳答案 这是一个错误,请升级到最新版本的Impala,因为它似乎从1.2.3开始就已修复,这是很旧