PIG_HOME

hadoop - pig : how to separate data by positions in a single line

通常，如果我们在一行中有任何分隔符，我们会这样做。load"pigtest.txt"usingPigStorage(',')as(year:int,temp:float);下面是单行数据的示例。0029029070999991901010106004+64333+023450FM12+000599999V0202701N015919999999N0000001N9-00781+99999102001ADDGF108991999999999999999999我需要提取年份1901(16thpositionto4positions)吨emperature(89thpositionto4po

hadoop - 使用 PIG 从 CSV 文件中删除双引号 (")

我正在尝试从文件中删除双引号(")。某些字段包含“Newyork,NY”等数据。请告诉我该怎么做？我已尝试从CSV中删除(")。但它是没有发生。逐步代码如下:我是用pig-xlocal打开pig第一步:test4=LOAD'/home/hduser/Desktop/flight_data.csv'usingPigStorage(',')AS(YEAR:chararray,QUARTER:chararray,MONTH:chararray,DAY_OF_MONTH:chararray,DAY_OF_WEEK:chararray,FL_DATE:chararray,UNIQUE_CARRI

引号 hadoop REGEX_EXTRACT chararray EXTRACT apache-pig

hadoop - 如何在 pig latin 中分组后进行排序和限制而不会使工作崩溃

很多时候我们有兴趣获取一组的顶部或底部(在orderby之后)，这些集合在排序之前已经按某些键分组。A=FOREACHdataGENERATEx,y,z;B=DISTINCTA;C=GROUPBBY(x,y)PARALLEL11;D=FOREACHC{ORDERD=ORDERBBYzDESC;FIRST_REC=LIMITORDERD1;GENERATEFLATTEN(FIRST_REC)AS(x,y,z);};STOREDINTO'xyz'USINGPigStorage();上面的foreach生成需要“永远”完成，并最终在12小时左右后被杀死。负责这件事的mapreduce作业生成

中分后进 section GENERATE FOREACH hadoop group-by nested apache-pig

hadoop - Pig 过滤器因意外数据而失败

我正在运行Cassandra，其中有大约2万条记录可供使用。我正尝试在pig中对此数据运行过滤器，但收到以下消息:2015-07-2313:02:23,559[Thread-4]WARNorg.apache.hadoop.mapred.LocalJobRunner-job_local_0001java.lang.RuntimeException:com.datastax.driver.core.exceptions.InvalidQueryException:Expected8or0bytelong(1)atorg.apache.pig.backend.hadoop.execution

hadoop Pig apache java cassandra apache-pig

arrays - 使用 Apache Pig 从文件中读取字符串数组

我在外部存储一个Hive表，这是一个非常简单的数据结构。该表在Hive中创建为(userstring,namesarray)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'COLLECTIONITEMSTERMINATEDBY'\001'STOREDASTEXTFILE(我也尝试过其他分隔符)。在Pig中，我似乎想不出使用包或元组来加载简单数组的正确方法!这是我在没有运气的情况下尝试过的方法:users=load''usingPigStorage()AS(user:chararray,names:bag{tuple(name:chararray)})us

arrays Apache section code chararray hadoop apache-pig

java - 在 PIG 中获取名称值 JSON

大家好，我刚开始做pig，我想知道JsonLoader是否能够解析json中的所有值。例如:{"food":"Tacos","person":"Alice","amount":3}我需要将“食物”作为关系存储在chararray和“Tacos”中，这是“食物”对另一个关系的值(value)。在阅读了许多教程和文档之后，我还没有找到这样做的内置方法。这是否意味着唯一的解决方案是通过UDF？非常感谢! 最佳答案我找到了使用来自twitter的外部jar的答案。register'hdfs:/udf/elephant-bird-pig-4

java JSON section 34 code hadoop apache-pig

hadoop - 想要使用 pig 聚合两个已解析 xml 文件的文件的值

第一个文件包含以下内容cl_iddateTMc_idc_val102012015-4-1501:00:00567070650102012015-4-1501:00:00567070661102012015-4-1501:00:0056707067200同样有多个cl_id，对于每个cl_id，c_id不同，c_value也不同。同样在第二个文件中cl_iddttmc_idc_val102012015-4-1501:00:0056707065300102012015-4-1501:00:005670706660102012015-4-1501:00:005670706720文件一和文件二

hadoop pig 10201 00 2015 mapreduce apache-pig hdfs

hadoop - 如何在 Pig 中使用 MapReduce Native 传递命令行参数

我正在使用NaativeMapreduce(https://wiki.apache.org/pig/NativeMapReduce)从ApachePig调用Mapreduce作业我的问题是如何像在命令行中那样传递参数。例如:如果我有一个Mapreduce类，我从命令行调用它的驱动程序并向它传递一些它在其作业配置对象中设置的参数，例如javaMRDriverargument1_value在MRDriver中publicstaticvoidmain(String[]args){JobConfjobConf=...jobconf.set("argument1",arg[0]);.....}当

何在 MapReduce section 39 code hadoop apache-pig

hadoop - Hortonworks 沙箱 $HIVE_HOME 路径

我带着一个愚蠢的问题又回来了。我下载了Hortonworks沙盒并尝试了:echo$HIVE_HOME什么也没有。有人可以指导我这条路是什么吗？在hive-site.xml中，我得到以下几行:hive.metastore.warehouse.dir/apps/hive/warehouse但是盒子上没有这个路径。非常感谢任何帮助!! 最佳答案抱歉打扰了。路径是:hadoopfs-ls/apps/hive/warehouse/[root@sandboxcurrent]#vi/etc/hive/conf.install/hive-sit

沙箱 Hortonworks section hive warehouse hadoop sandbox hortonworks-data-platform

hadoop - 使用 PIG 将日期转换为毫秒

真的卡在这上面了!假设我有以下数据集:A|B------------------1/2/12|13:3.804:4.1|12:1.415:4.3|1/3/13观察A和B的格式通常为分钟:秒.毫秒，例如A是点击，B是响应。如果任何事件恰好在新一天的开始，有时时间格式有月/日/年的形式。我想要什么？是计算B和A之间的平均差异。我可以轻松处理m:s.ms，将它们分成两部分，分别用于A和B，然后转换为DOUBLE和执行所有需要的操作，但在引入m/d/yy时都失败了。省略它们的最简单方法，但这不是一个很好的做法。使用PIG是否有明确的方法来处理此类异常？最佳答案

毫秒 hadoop strong time 39 apache-pig cloudera

118 119 120121122 123 124