草庐IT

pig-without

全部标签

hadoop - 在 Apache pig 中读取压缩 (.xz) 文件

我正在尝试读取使用hadoop-xz压缩的.xz文件使用pig脚本的编解码器。我试过的示例代码是,REGISTERhadoop-xz-1.4.jarSEToutput.compression.enabledtrue;SEToutput.compression.codecio.sensesecure.hadoop.xz.XZCodec;msg=LOAD'pigtest/newXZ.xz'USINGPigStorage();STOREmsgINTO'pigtest/output'USINGPigStorage();DUMPmsg;结果仍然是压缩格式。我做错了吗,还是我必须在pig里面使用X

hadoop - 从 Pig UDF Java 类中的分布式缓存访问文件,Amazon EMR

我正在尝试访问UDF中的文件(sample.txt)。我想将该文件放在分布式缓存中并从那里使用它。我正在使用亚马逊EMR来运行Pig作业。我在创建集群时使用EMRbootstrap-action将文件(sample.txt)复制到HDFS。bootstrap.sh(将文件从s3复制到hdfs)hadoopfs-copyToLocals3n://s3_path/sample.txt/mnt/sample.txtUsingSample.java(使用sample.txt的UDF)publicclassUsingSampleextendsEvalFunc{publicStringuseSam

xml - 将 XML 加载到 PIG : Error 2998

我正在使用piggybank-0.12.0.jar,pig版本是0.12(CDH)pig--versionApachePigversion0.12.0-cdh5.3.2(rexported)我正在尝试使用piggybankjar的XMLLoader加载xml文件。在出现以下错误期间:REGISTERpiggybank-0.12.0.jar;DEFINEXMLLoaderorg.apache.pig.piggybank.storage.XMLLoader();DEFINERegexExtractAllorg.apache.pig.piggybank.evaluation.string.R

hadoop - 从 oozie 以本地模式运行 PIG

我想在本地模式下运行PIG,这很容易pig-xlocalfile.pig我的要求是从OOZIE以本地模式运行PIG?有没有可能像我想的那样OOZIE会先自动启动maptask? 最佳答案 这是可能的。当Oozie运行pig脚本时,它作为单映射map-reduce作业运行,它只运行pig脚本,而pig脚本又运行其他map-reduce作业(当pig在mapred中运行时>模式)。看来,Pig操作配置不允许在本地模式下运行,但您仍然可以使用shell操作类型在本地模式下运行Pig脚本。您只需确保您的脚本、输入和输出数据位于HDFS中。

azure - Pig 无法在 HDFS (riskfactor.pig) 中创建(或查找)pigjobs 文件

我在Azure上使用HortonWorks沙箱,并且正在研究Hadoop入门教程“实验室3-pig风险因素分析”。http://hortonworks.com/hadoop-tutorial/hello-world-an-introduction-to-hadoop-hcatalog-hive-and-pig/#section_5在执行完所有步骤之后,运行这个pig脚本:a=LOAD'geolocation'usingorg.apache.hive.hcatalog.pig.HCatLoader();b=filterabyevent!='normal';c=foreachbgenera

hadoop - Apache Pig 存储分隔符

我正在使用PigLatin将别名中的值存储到HDFS中。别名在其字段之一中包含一个分号。dumpA;(Richard&John,1993)(Albert,1994)显示HDFS中数据的表格,但分号使John转到下一列。|Name|Year||--------------|------||Richard&|John||Albert|1994|Tryingtousestorelikethisisalsonotworkingasexpected:STOREAINTO'/user/hive/warehouse/test.db/names'usingPigStorage('\t')

hadoop - 如何使用 apache pig 构建非结构化数据

我有一个包含以下行的文件:3124,"hello...",ku43125,"hello,hi",ab2我想加载包含三列的文件。我使用了PigStorage(',')但它也将"hello,hi"一分为二。我想要它在一个字段下。我怎样才能做到这一点? 最佳答案 您可以编写自己的自定义UDF或使用piggybank.jar中的CSVLoader--Getpiggybank.jarthatiscompatiblewithyourpigversionandregisteritinyourpigscriptbypointingtotheloca

java - 将 Apache Pig 连接到 Hadoop 集群

我正在使用ApachePig对Hadoop集群进行一些数据分析工作。我在hadoop集群中部署了一个集合节点和32个从节点。但是,当我使用Pig以mapreduce模式运行脚本并连接到该Hadoop集群时,它总是只启动一个map和一个reduce。我如何设置Pig或Hadoop以使用所有32个从站?作业状态如下图所示:JobStats(timeinseconds):JobIdMapsReducesMaxMapTimeMinMapTimeAvgMapTimeMedianMapTimeMaxReduceTimeMinReduceTimeAvgReduceTimeMedianReduceti

hadoop - 在 PIG 中完全外部连接后丢弃空值

需要帮助丢弃pigLatin中完全外部连接结果中的空值。下面是两个数据集:答:(BOS,2)(BUR,81)(LAS,8)乙:(BUR,56)(EWR,2)(LAS,88)完全外连接后:丙:(BOS,2,,)(BUR,81,BUR,56)(,,EWR,2)(LAS,8,LAS,88)我需要得到以下格式的输出:(BOS,2)(BUR,137)(EWR,2)(LAS,96)尝试了groupby、flatten、bagtotuple的不同组合……但无法找到解决方案。非常感谢您的帮助。airline=load'/demo/data/airline/airline.csv'usingPigSto

hadoop - Pig Latin 语法错误

我有以下数据:AGE,EDU,SEX,SALARY67,10th,Male,50K35,Assoc-voc,Male,50K42,Bachelors,Male,>50K30,Bachelors,Male,>50K23,Bachelors,Female,======================================================我的PigLatin脚本是:sensitive=LOAD'/mdsba'usingPigStorage(',')as(AGE,EDU,SEX,SALARY);--FilteredthedatabythecityData_filter