MAPREDUCE

hadoop - 具有 Hive 操作的 Oozie 工作流因权限问题而失败

我们有一个运行HDP2.2.0.0的Hadoop集群。我们有另一个运行HDP2.2.4.2的Hadoop集群。我们有一个带有Hive操作的Oozie工作流，它在第一个带有HDP2.2.0.0的集群上运行良好。但是在运行HDP2.2.4.2的第二个集群中，完全相同的工作流程失败，并出现以下错误:38098[main]INFOorg.apache.hadoop.hive.ql.Driver-Startingtask[Stage-4:MOVE]inserialmode2015-07-1516:23:22,810INFO[main]ql.Driver(Driver.java:launchTas

java - MapReduce 计数并求平均值

我想在MapReduce中开发一个程序，它从.tbl文件中获取cust_key和balance值。我已将2个值连接成字符串，然后将其发送到Reducer，因此我将计算cust_key并找到平均余额每个段。这就是为什么我将段添加为键。我想拆分字符串并将2个值分开，以便计算客户键并对余额求和以找到平均值。但是拆分数组[0]给我整个字符串，而不是字符串的第一个值.Alsosplittedarray[1]抛出ArrayoutofBounds异常。我希望它很清楚。代码如下publicclassMapReduceTest{publicstaticclassTokenizerMapperextend

MapReduce java code Text hadoop mapper

hadoop - 在 HDFS 中创建 zip 表

我试过创建不是这样的zip表。CREATETABLEexample_table(|aBIGINT,bBIGINT,vSTRING,dTINYINT)STOREDASTEXTFILELOCATION/path/to/directory/这不是压缩表。我还想用zip创建新表来获取该表的历史记录。我怎样才能用zip创建1个表？最佳答案首先设置下面的属性SEThive.exec.compress.output=true;SETmapred.output.compression.type=BLOCK;setmapred.output.co

中创 hadoop section code output mapreduce hdfs impala hadoop-partitioning

hadoop - Pig Latin 像这样获取 SUM() 函数的输出？

我有一些数据，比如(名字，分数)一个10乙25C15一个5一个36乙98C78C78乙12data=LOAD'demo.txt'usingPigStorage(',')as(name:chararray,score:int);groupScore=GROUPdatabyscore;totalscore=FOREACHgroupScoreGeneratedata.name,SUM(data.score);当我使用SUM()函数时，输出结果如下{(A)(A)(A),(51)}{(B)(B)(B),(135)}我想知道是否有任何我可以展示的东西{(A),(51)},这不是在每次出现时都重复“

hadoop Latin section code data mapreduce apache-pig

join - 非相等配置单元查询的解决方法

我尝试在配置单元上重写后续查询selectTFCT_CHARGE.SUBS_KEY,TFCT_CHARGE.PRODUCT_KEY,TFCT_CHARGE.CHARGE_NVAL,TFCT_CHARGE.B_SUBS_KEY,TFCT_CHARGE.DELETE_DT,HFCT_SUBS_SEGMENT.SEGMENT_KEY,TFCT_CHARGE.EVENT_DT,TFCT_CHARGE.DWH_SRC_TABLE_KEYfromTFCT_CHARGELEFTOUTERJOINHFCT_SUBS_SEGMENTON(TFCT_CHARGE.B_SUBS_KEY=HFCT_SUBS_

配置单 join TFCT_CHARGE CHARGE HFCT_SUBS_SEGMENT hadoop mapreduce left-join hive

hadoop - 为什么 Raid 不在 Hadoop 2.x 中？

在0.22.0版本中我们可以找到raidcontrib，但是Hadoop2ndgeneration(version2.x)似乎不再支持hdfs-raid了，请问是什么原因呢？最佳答案 Hadoop有自己的复制和检查机制。以下引自AlexHolme的HadoopInPracticeUsingRAID,however,isstronglydiscouragedontheDataNodes,becauseHDFSalreadyhasreplicationanderror-checkingbuilt-in;butontheNameNode

hadoop section strong mapreduce hdfs cloudera hortonworks-data-platform

hadoop - 如何编写简单的 map-reduce 作业以将制表符分隔的文本文件转换为序列文件？

我想将一个文本文件作为映射器的输入并输出一个序列文件。如何编写一个简单的map-reduce作业？文本文件将具有制表符分隔值。例如输入:group112345对于这样的输入，我想创建输出序列文件，其键为“group1”，其值应为12345的向量。我怎样才能写这些工作？另外我觉得在这种情况下我不需要reducer。在这种情况下如何编写identityreducer作业？我可以跳过编写reducer作业吗？感谢任何帮助。问候。最佳答案是的，您可以跳过编写Reducer。将其设置为简单的Reducer.class。同时调用setNum

制表符 map-reduce code section 编写 hadoop mapreduce mahout

java - 与 Hadoop MapReduce 的成对比较

我有一个很大的文本文件(5GB)，每行一个字符串。我需要使用专有算法将每一行与其他每一行进行比较。我是MapReduce的新手，但有Java经验。给我带来麻烦的问题是创建单独的map输入。文档似乎是在假设每一行都不依赖于任何其他行的情况下编写的。执行此操作的最佳方法是什么？最佳答案这里有一些关于使用Hadoop进行连接的有趣论文:http://www.inf.ed.ac.uk/publications/thesis/online/IM100859.pdfhttp://www.inf.ed.ac.uk/publications/t

MapReduce Hadoop section http noreferrer java amazon-emr

eclipse - 在 Eclipse 中运行 Map Reduce 程序

我有一个Map/Reduce程序，它加载一个文件并将其读入hbase。如何通过Eclipse执行我的程序？我用谷歌搜索并找到了两种方法:1)UsingEclipseHadoopplugin2)CreateajarfileandexecuteitinHadoopserver但是，我可以通过提供连接详细信息并在eclipse中运行来执行我的Map/Reduce程序吗？任何人都可以告诉我运行HbaseMap/Reduce程序的确切过程吗？最佳答案我做了以下事情:在我的机器上安装并配置了hadoop(和hdfs)使用我的hadoop作业

中运 eclipse section hadoop mapreduce hbase

hadoop - 无法使用 Mapreduce 将数据加载到 Htable

我对Hbase和Hadoop很陌生。我对MapReduce概念感到困惑，我想知道MapreduceF/w中的执行流程。我尝试在谷歌上搜索一种方法来从文件中读取数据并使用Put类使用reducer将数据加载到Htable中。我在HDFS中有一个文件，我需要从HbaseMapreducer读取该文件并将数据加载到Htable。谁能告诉我哪里出错了？最佳答案您可以在不使用reducer的情况下使用Mapper。由于可以使用reducer进行排序，你只需要将文件数据直接存储到Hbase中即可。

Mapreduce hadoop section reducer Htable hbase

32 33 343536 37 38