草庐IT

hadoop - 提取 Pig 中的数据,不包括第一列

我有非结构化数据key1|a1|a11|a21|a31|a41key2|b1|b11key3|c1|c11|c21key4|d1key2|b101|b111key1|a101|a111|a121|a131|a141根据第一列,将记录拆分并分发到目录。z=load'/user/input/data.txt'usingPigStorage('|');splitzintoz1if$0=='key1',z2if$0=='key2',z3if$0=='key3',z4if$0=='key4';z11=foreachz1generate$1,$2,$3,$4,$5;z22=foreachz2gen

hadoop - Hadoop 的 TaskStatus 类中的 getProgress() 方法是什么?

类TaskStatus类有一个方法getProgress()但我不确定这个方法实际返回什么。是花费的时间还是处理的输入数据?我想知道到目前为止在源代码中处理了多少数据。我应该怎么办?我应该使用getProgress()吗? 最佳答案 这是来自here的JavaDoc注释Getthecurrentprogress.Returns:anumberbetween0.0and1.0(inclusive)indicatingtheattempt'sprogress.在这里尝试成为mapreduce作业。

hadoop - 在 Pig 中对多列使用 SUM 时出错

下面是Pig的非结构化输入数据file1.txt---------input|key1|id1|1|1|2|3input|key1|id1|1|0|1input|key1|id1|1|1预期输出是单个记录,其中所有记录的前3列值都相同,我需要总结第4列和第5列。key1|id1|3|2错误如下:data=load'file1.txt'usingPigStorage('|');temp1=foreachdatagenerate$1,$2,sum($3),sum($4);ERRORorg.apache.pig.tools.grunt.Grunt-ERROR1070:Couldnotreso

hadoop - 三个: Presto, hive和impala是否都支持Avro数据格式?

我很清楚Hive中可用的Serde来支持数据格式的Avro模式。熟悉将avro与hive结合使用。AvroSerDe比方说,我已经发现了这个问题。https://github.com/prestodb/presto/issues/5009我需要选择组件以实现快速执行周期。Presto和impala提供更短的执行周期。所以,任何人都请让我澄清一下在不同的数据格式中哪个更好。首先,我现在正在寻找Presto的avro支持。但是,让我们考虑以下存储在HDFS上的数据格式:Avro格式Parquet格式兽人格式哪个最适合用于不同数据格式的高性能。??请提出建议。 最

hadoop - Hadoop 中键的数量限制是多少?

我彻底搜索了答案,但是我仍然很困惑Hadoop框架中键数或reducetask的限制。它是整数还是可以是任何值? 最佳答案 HadoopMapReduce在Key-Value对模式下工作,键可以是任何东西,唯一的标准是键类必须实现org.apache.hadoop.io.WritableComparable接口(interface)和值类必须是org.apache.hadoop.io.Writable接口(interface)的实现 关于hadoop-Hadoop中键的数量限制是多少?,

hadoop - EMR Hue : CUSTOM server authentication not supported. 有效的是 ['NONE' , 'KERBEROS' , 'PAM' , 'NOSASL' , 'LDAP' ]

当我为Hive启用“自定义”身份验证时,Hue无法连接到HiveServer2。它抛出以下错误:CUSTOMserverauthenticationnotsupported.Validare['NONE','KERBEROS','PAM','NOSASL','LDAP'].如果我们使用自定义身份验证提供程序配置Hive,这是否意味着Hue不起作用?Hive本身工作正常,JDBC/ODBC使用自定义身份验证也按预期工作。有解决办法吗?引用:https://cwiki.apache.org/confluence/display/Hive/Setting+Up+HiveServer2

java - 在java程序中编译错误以使用hadoop计算文件中的单词

我的Java版本:➜testgit:(dev)✗java-versionjavaversion"1.8.0_131"Java(TM)SERuntimeEnvironment(build1.8.0_131-b11)JavaHotSpot(TM)64-BitServerVM(build25.131-b11,mixedmode)我正在尝试运行以下简单的java程序,该程序使用hadoopmapreducefromhere提供文件中的字数统计.以下是完整的java代码:importorg.apache.hadoop.conf.Configuration;importorg.apache.had

hadoop - 如何使用 Pig 将不同的值存储在同一键的列表中

我有一个用例col1|col2a101|10a101|20a101|10a101|30a201|40a201|50预期输出:a101|列表a201|列表下面是查询,但我没有得到预期的输出。我想在列表中存储col2个不同的值。input1=load'list1.csv'usingPigStorage('|')as(col1:chararray,col2:int);input2=DISTINCT(FOREACHinput1generatecol1,col2);input3=GROUPinput2bycol1;dumpinput3;(a101,{(a101,30),(a101,20),(a1

java - 我也可以使用 hadoop jar 命令来运行普通的 java 程序吗?

我的Java代码中有一些hadoop文件系统操作(例如:hdfsmkdir)。当我尝试使用java-cp运行java程序时,该目录在linux本地文件系统中创建。所以我用hadoopjar命令运行程序,目录在hdfs中创建。现在我打算使用hadoopjar命令运行整个java程序。我想知道使用hadoopjar命令会不会有任何问题,尤其是在从本地文件夹读取文件或执行Runtime.getRuntime().exec(somelinuxcommand);以下代码片段时我的hdfs文件操作Configurationconf=newConfiguration();FileSystemfs=F

hadoop - TaskStatus 类有一个方法 getPhase()。它返回什么?(它们只是映射、随机播放、排序、减少吗?)

TaskStatusk=null;TaskStatus.PhaseCurrentPhase=k.getPhase();上面的代码是否正确,如果我想知道一个任务的当前阶段? 最佳答案 根据thisTaskPhase.getPhase可以返回以下任何值,具体取决于进程当前处于哪个阶段publicstaticenumPhase{STARTING,MAP,SHUFFLE,SORT,REDUCE,CLEANUP} 关于hadoop-TaskStatus类有一个方法getPhase()。它返回什么?