草庐IT

hadoop - 如何从 pig 中的文本文件的一行中转储特定列?

我是pig的新手。我的数据在.txt文件中,我想从这个文本文件中检索特定的列。列在这个文本文件中用;分隔。例如,如果行是1;1;13;2010-09-13T19:16:26.763;239;383084;10;16575;2013-04-05T15:50:48.133;2015-11-21T04:55:50.150;我已经root了我的手机。怎么办?我从生根中得到什么?;2;0;162;2011-01-25T08:44:10.820;,然后我想从上面的行中检索第4列。那么,检索4th列的pig脚本应该是什么,即(239)。 最佳答案

hadoop - 在 hive 中转换之前如何分配?

在hive中,我想按一列分布表,并为每个分布部分使用python进行转换。例如:我想像这样对具有特定D列编号的记录进行操作:from(select*fromraw_tablewhereD=12345sortbyA)sbinsertoverwritetableu_12345partition(X,Y)selecttransform(cast(Aasdouble),B,C,D,E,F,X,Y)using'hello.py'asA,B,C,D,E,F,X,Y;现在我想对所有不同的D列编号执行此操作,我编写了如下代码:fromraw_tableinsertoverwritetableclean

java - 在映射器内部的对象中转换字符串化的 MapWritable

实际上,我正在尝试实现一种机器学习算法,该算法要求我将reducer的输出写入文件,然后在下一个映射器中读取该文件。问题是我正在文件中编写在reducer中创建的MapWritable对象,但是现在当我想访问该对象时,它仅作为字符串出现。有什么方法可以在从文件读取时将此对象org.apache.hadoop.io.MapWritable@72d01691转换为实际的MapWritable对象?我在映射器中的部分代码:DoubleWritable[][]Tdata=newDoubleWritable[T.numRows()][T.numColumns()];for(intk=0;k在ja

hadoop - ClassCastException : org. apache.hadoop.io.Text 无法在 K-Means 聚类 Mahout 中转换为 org.apache.hadoop.io.IntWritable

我正在使用Mahout命令进行K均值聚类,输入文件是“KMeansData.csv”,数据是这种格式,John,M,30,Pepsi,USJack,M,25,Coke,USDavid,M,34,Pepsi,UKTed,M,37,Limca,CANRobert,M,23,Limca,USAdrian,M,31,Pepsi,USCraig,M,37,Coke,UKKatie,F,23,Limca,UKNancy,F,32,Pepsi,UK我能够成功完成以下步骤,它们是,./mahoutseqdirectory-i/root/Mahout/Clustering/-o/root/Mahout/

hadoop - 在 Pig 声明语句中转义括号

pig版本:0.12.0-cdh5.10.1我对使用pig还很陌生。我了解到有几种方法可以在pig中定义参数。其中之一是“声明”声明。只是想知道,我们是否可以在参数值中使用像“(”和“)”(括号)这样的字符。我试图在可能包含“(”和“)”字符的声明语句中保存几个(不同提要的变量)查找值,因此它抛出错误。我还尝试使用"\"和"\\"转义这些字符,但它似乎不起作用例如,在pig中运行以下语句:%declareDESC'Joe\\(sURL'尝试使用以下命令读取相同内容时出现以下错误:shecho$DESC错误:2018-02-2510:11:55,692[main]ERRORorg.apa

hadoop - 如何按多列分组,然后在 Hive 中转置

我有一些数据,我想在多列上进行分组,对其执行聚合函数,然后使用Hive转置到不同的列中。例如,给定这个输入输入:hrtypevalue01a1001b2001c5001a3002c1002b9002a80我想产生这个输出:输出:hra_avgb_avgc_avg0120205002809010我的输入中每个不同的type都有一个不同的列。a_avg对应于每小时的平均a值。我如何在Hive中执行此操作?我猜我可能需要使用https://github.com/klout/brickhouse/wiki/Collect-UDFs到目前为止,我能想到的最好的方法是使用多个group-by子句,

hadoop - 在 Spark 中转储 hadoop 配置

我使用sc.hadoopConfiguration.set来设置配置。我如何转储这些配置?在控制台上打印它们或将它们转储到文件中 最佳答案 您可以将hadoop配置转储到xml文件(我假设您使用的是Scala)valout=newFileOutputStream("conf.xml")sc.hadoopConfiguration.writeXml(out) 关于hadoop-在Spark中转储hadoop配置,我们在StackOverflow上找到一个类似的问题:

hadoop - 如何在配置单元中转换复杂数据类型

我在配置单元表中有一个复杂数据类型的列,它是结构,在结构内部我有十进制数据类型。当我对另一个表进行插入覆盖操作时,我想将此结构(十进制(10,0))转换为结构(double)或结构(浮点)。我如何实现这一点,因为当我尝试它给我一个错误-FAILED:SemanticException[Error10044]:Line1:23Cannotinsertintotargettablebecausecolumnnumber/typesaredifferent'avro_poc_orc_test':Cannotconvertcolumn3fromstructtostruct.是否可以将复杂数据类

hadoop - 在 Apache Pig Latin 中转置数据

我需要“转置”如下所示的数据:idCity111Chicago111NewYork111LA222Paris222London222Tokyo到:111ChicagoNewYorkLA222ParisLondonTokyo每个id都有三个条目,因此生成的关系将有4个字段。我试图避免使用UDF。有任何想法吗? 最佳答案 这不是基本分组吗?B=GROUPABYid检查http://pig.apache.org/docs/r0.7.0/piglatin_ref2.html#GROUP 关于ha

date - 如何在 Hive 中转换日期格式 'DDMONYYYY:HH....' 样式日期

我正在插入如下所示的日期:'19APR2014:08:42:32.123456'我将它们的格式解释为'DDMONYYYY:HH24:MI:SS.FFFFFF'虽然我没有看到12:59:59之后的任何时间,但我假设是24小时制。Hive似乎不明白我想做什么:HiveException:评估unix_timestamp(date_string,'DDMONYYYY:HH24:MI:SS.FFFFFF')时出错知道我做错了什么或者我的格式字符串可能有什么问题吗? 最佳答案 您是否尝试过ddMMMyyyy:HH:mm:ss.SSS?根据Hi