Pig-Latin_草庐IT

hadoop - 使用 pig 或 hadoop 寻找均值

我有一个巨大的表格文本文件数据保存在data/data1.txt、data2.txt等目录merchant_id,user_id,amount1234,9123,299.21233,9199,203.21234,0124,230andsoon..我想做的是针对每个商户，求出平均金额..所以基本上最后我想将输出保存在文件中。像merchant_id,average_amount1234,avg_amt_1234aandsoon.如何计算标准差？很抱歉问这么基本的问题。:(任何帮助，将不胜感激。:) 最佳答案 ApachePIG非常适合

hadoop - 如何向从 Pig (Hadoop) 创建的文件添加标题行？

我正在编写类似于以下内容的piglatin脚本:A=load'data'usingPigStorage('\t');storeAintomy_datausingPigStorage();这输出(Bob,10,4.0)(Jim,11,3.25)(Paul,9,2.75)我想为存储在HDFS中的每个文件添加第一个标题行(Name,Age,GPA)(Bob,10,4.0)(Jim,11,3.25)(Paul,9,2.75)有什么想法吗？最佳答案您可以使用CSVExcelStorage作为存储功能，它可以让你精确地做你想做的事:STOR

hadoop section 39 code apache-pig

hadoop - pig 非聚合警告输出位置？

Pig:0.8.1-cdh3u2Hadoop:0.20.2-cdh3u0调试FIELD_DISCARDED_TYPE_CONVERSION_FAILED警告，但我似乎无法在任何地方打印单独的警告。通过-w或aggregate.warnings=false开关禁用聚合会删除摘要消息，但它也会删除实际警告，所以我看不到什么类型转换失败.这次运行的pig日志中没有任何内容，而且我也没有地方可以找到带有单独警告的日志。我是否漏掉了任何明显的东西，或者它根本不起作用？最佳答案 Hadoop作业日志记录在每个计算节点本地。因此，您首先需要设置

hadoop pig code section apache-pig

hadoop - Pig 如何在 'load' 语句中使用 Hadoop Glob？

因为我notedpreviously,Pig不能很好地处理空(0字节)文件。不幸的是，有很多方法可以创建这些文件(甚至是withinHadooputilitities)。我认为我可以通过在LOADstatement中显式加载与给定命名约定匹配的文件来解决这个问题。使用Hadoop'sglobsyntax.不幸的是，这似乎不起作用，因为即使我使用glob过滤已知良好的输入文件，我仍然遇到0字节故障mentionedearlier.这是一个例子:假设我在S3中有以下文件:mybucket/a/b/(0字节)mybucket/a/b/myfile.log(>0字节)mybucket/a/b/

何在 amp section mybucket noreferrer hadoop apache-pig

hadoop - 在 spark join 中，表顺序是否像 pig 一样重要？

与Spark-Joining2PairRDDelements相关在pig中进行常规连接时，连接中的最后一个表不会进入内存，而是通过流式传输，因此如果A每个键的基数较小而B的基数较大，则执行joinA,B会明显更好。比joinAbyB，从性能角度(避免溢出和OOM)spark中有类似的概念吗？我没有看到任何这样的建议，想知道这怎么可能？在我看来，该实现与pig中的几乎相同:https://github.com/apache/spark/blob/master/core/src/main/scala/org/apache/spark/rdd/CoGroupedRDD.scala还是我遗漏了

hadoop spark section https apache-spark apache-pig bigdata

hadoop - 在 PIG 中将 Chararry 类型转换为 double 的异常

我有一个示例输入作为制表符分隔的键，值对如下B_1001@2012-06-1596.73429163933419@0.5511284347710459B_1001@2012-06-18187.4348199976547@0.5544551559243536B_1002@2012-09-26745.4912066349087@0.8398570478932768B_1002@2012-09-2860.97117969729124@0.8500267379723409然后我将这个文件加载到pig中并执行以下操作a=load'/home/HadoopUser/Desktop/a.txt'as

Chararry hadoop chararray double code mapreduce apache-pig

hadoop - 在 Pig 中加入后从别名生成所有字段

我想在ApachePig中执行相当于“将所有a保留在A中，其中a.field==b.field用于b中的一些B”。我是这样实现的，AB_joined=JOINAbyfield,Bbyfield;A2=FOREACHAB_joinedGENERATEA::fieldasfield,A::field2asfield2,A::field3asfield3;枚举所有A的条目非常愚蠢，我宁愿做类似的事情，A2=FOREACHAB_joinedGENERATEflatten(A);但是，这似乎行不通。有没有其他方法我可以在不枚举A的情况下做一些等效的事情的字段？最佳答

hadoop Pig code field section apache-pig

hadoop - 如何在 Pig 中将一个组扁平化为一个元组？

来自这里:(1,{(1,2),(1,3),(1,4)})(2,{(2,5),(2,6),(2,7)})...我们如何生成这个？((1,2),(1,3),(1,4))((2,5),(2,6),(2,7))...我们如何生成它？(1,2,3,4)(2,5,6,7)对于单行，我知道该怎么做。问题是当我必须遍历许多行并同时操作内部组时。最佳答案针对你的问题，我准备了以下文件:1,21,31,42,52,62,7起初，我使用以下脚本获取您在问题中描述的输入r3:r1=load'test_file'usingPigStorage(',')a

扁平何在 code pre BagToTuple hadoop apache-pig

hadoop - 在 Pig 的 Parquet 上使用 hive 表

我正在尝试在包含两个Parquet文件的文件夹上创建一个具有架构string,string,double的Hive表。第一个parquet文件架构是string,string,double，第二个文件的架构是string,double,string。CREATEEXTERNALTABLEdynschema(trans_datestring,currencystring,ratedouble)STOREDASPARQUETLOCATION'/user/impadmin/test/parquet/evolution/';我正在尝试在pig(0.14)脚本中使用配置单元表。A=LOAD'dy

Parquet hadoop section string code hive apache-pig hcatalog

java - 如何在 Pig 中加入后删除重复的列？

假设我JOIN两个关系如下:--partlookslike:--1,5.3--2,4.9--3,4.9--originallookslike:--1,Anju,3.6,IT,A,1.6,0.3--2,Remya,3.3,EEE,B,1.6,0.3--3,akhila,3.3,IT,C,1.3,0.3jnd=JOINpartBY$0,originalBY$0;输出将是:1,5.3,1,Anju,3.6,IT,A,1.6,0.32,4.9,2,Remya,3.3,EEE,B,1.6,0.33,4.9,3,akhila,3.3,IT,C,1.3,0.3请注意，$0在每个元组中显示了两次。例如

何在 java code chararray ROLLNO hadoop join apache-pig