Pig

hadoop - PIG latin - DUMP 命令不显示

我只是尝试使用DUMP显示GROUPed记录的结果，但是没有显示数据，而是有很多日志数据。我只玩10条记录。详情:grunt>DUMPgrouped_records;2016-02-2117:34:24,338[main]INFOorg.apache.pig.tools.pigstats.ScriptState-Pigfeaturesusedinthescript:GROUP_BY,FILTER2016-02-2117:34:24,339[main]INFOorg.apache.pig.newplan.logical.optimizer.LogicalPlanOptimizer-{RU

hadoop - 无法在 pig 中运行转储

我正在尝试转储关系但出现以下错误。我试过start-all.sh并尝试使用hadoopnamenode-format格式化namenode。但我不明白哪里出了问题。Error:-Alreadytried9time(s);retrypolicyisRetryUpToMaximumCountWithFixedSleep(maxRetries=10,sleepTime=1000MILLISECONDS) 最佳答案启动JobHistoryServer$HADOOP_HOME/sbin/mr-jobhistory-daemon.shstar

中运 hadoop code section gt apache-pig

shell - 使用 azure 数据工厂 (ADF) 从 Pig/Hive 事件运行 shell 脚本

我正在使用AzureBlob存储，数据工厂和HDInsight集群。我有一个包含hadoop和hive相关代码的shell脚本，我正在尝试在ADF中添加/创建一个hive/Pig事件，从pig/hive的代码我正在调用一个shell脚本；作为myFile.pigsh/myFolder/myscript.sh==========================myFile.hql!/myFolder/myscript.sh在执行时，我得到Java.IO.Excption|无此文件或目录。根据异常pig/hive文件无法识别shell脚本路径；有没有人遇到过类似的问题，或者有没有人部署了p

shell azure section code hadoop azure-hdinsight azure-data-factory

json - Apache pig/Twitter 象鸟 Json 解析器 ClassCastException

我正在尝试使用Pig和Twitter的elephant-bird库解析一个相当简单的json文件，但它变成了一个非常痛苦的调试过程。json的结构如下:oid_id:(oid:chararray),bookmarks:{(oid_id:(oid:chararray),id:chararray,creator:chararray,position:chararray,creationdate:($ate:chararray))},lastaction:(date:chararray),settings:(preferredlanguage:chararray),userid:charar

ClassCastException Twitter 34 java apache json hadoop apache-pig elephantbird

Hadoop Pig 排序结果；找到订单位置？

我想对我的pig结果进行排序，然后能够确定某些项目在我的排序结果中的位置。示例:mydata=LOAD'mydata.txt'AS(label:chararray,rank_score:float);ranked_data=ORDERmydataBYrank_scoreDESC;ranked_positions=FOREACHranked_dataGENERATElabel,AUTO_INCREMENT_ID;results=FILTERranked_dataBYlabel='item1'ORlabel='item2';DUMPresults;AUTO_INCREMENT_ID在我的完

Hadoop Pig section item code apache-pig

hadoop - 选择 : Hadoop custom jars, Hadoop Streaming、Pig 或 Mahout 中的哪一个？

我正在从事一个NLP项目，该项目可以创建实体集并计算大型语料库的成对相似性。目前我正在使用hadoopstreaming并在Python中实现了所有映射器和缩减器。由于算法需要多轮map-reduce，我使用Shell脚本来链接作业。现在这是我的顾虑和我接下来想做的事情:[问题1]。作业链和作业控制。链接hadoop流作业是有问题的。如果作业序列(job1-job2-job3)中的作业2失败，我必须手动删除输出文件夹，调整启Action业的脚本文件并从中间重新运行作业序列。我真的希望找到一种更聪明的方法来做到这一点。由于我需要经常调整算法的参数和逻辑，我不想一次又一次地重复这些步骤。[

Hadoop Streaming strong section 自定 mapreduce apache-pig mahout hadoop-streaming

java - 如何在 pig 文件中使用 .jar

我有两个输入文件smt.txt和smo.txt。jar文件读取文本文件并根据java文件中描述的一些规则拆分数据。pig文件通过mapreduce将这些数据放入输出文件。register'maprfs:///user/username/fl.jar';DEFINEFixedLoaderfl();mt=load'maprfs:///user/username/smt.txt'usingFixedLoader('-30','30-33',...........)AS(.........);mo=load'maprfs:///user/username/smo.txt*'usingFixed

何在 java FixedLoader apache section hadoop mapreduce apache-pig mapr

hadoop - PIG UDF 处理拆分成不同映射器的多行元组

我有一个文件，其中每个元组跨越多行，例如:STARTname:Jimphone:2128789283address:562ndstreet,NewYork,USAENDSTARTname:Tomphone:6308789283address:565thstreet,Chicago,13611,USAEND...以上是我文件中的2个元组。我编写了定义getNext()函数的UDF，该函数检查它是否开始，然后我将初始化我的元组；如果是END那么我将返回元组(来自字符串缓冲区)；否则我只会将字符串添加到字符串缓冲区。它适用于小于HDFSblock大小64MB(在AmazonEMR上)的文件大

多行射器 code 自定 apache hadoop amazon-web-services mapreduce user-defined-functions apache-pig

hadoop - Apache Pig 错误消息指南

我正在寻找有关如何解释各种常见PIG脚本错误消息的资源。冒险进入Google/SO之前的第一站。理想情况下，我想要单个页面或可搜索的权威引用列表:常见错误信息可能的原因典型解决方案知道有什么好的引用资料吗？最佳答案 pig的Errorhandlingfuncspec包含有关错误类型/代码的详细信息。由于这在最近没有更新，我也建议你有一个如果发生不清楚的地方，请查看源代码。关于hadoop-ApachePig错误消息指南，我们在StackOverflow上找到一个类似的问题：

指南 hadoop section stackoverflow https apache-pig

hadoop - pig load udf 用于从多个子目录加载文件

我想在pig中编写自定义加载udf，用于从目录结构加载文件。目录结构就像一个电子邮件目录。它有一个名为maildir的根目录。在这个目录中，我们有个人邮件持有者的子目录。在每个邮件帐户持有者目录中，都有几个子目录，如收件箱、已发送、垃圾箱等。例如:maildir/mailholdername1/inbox/1.txtmaildir/mailholdername2/sent/1.txt我只想读取所有mailerholdername子目录中的收件箱文件。我无法理解:应该将什么作为参数传递给加载udf应该如何解析整个目录结构并只读取相应的收件箱文件。我想处理一个文件并执行一些数据提取并将其作

子目子目录收件箱 section hadoop user-defined-functions apache-pig

91 92 939495 96 97