PIG_HOME

java - pig 类型转换/数据类型

我试图将关系转储到AVRO文件中，但出现了一个奇怪的错误:org.apache.pig.data.DataByteArraycannotbecasttojava.lang.CharSequence我不使用DataByteArray(bytearray)，请参阅下面的关系描述。sensitiveSet:{rank_ID:long,name:chararray,customerId:long,VIN:chararray,birth_date:chararray,fuel_mileage:chararray,fuel_consumption:chararray}即使我进行显式转换，我也会遇到

java pig 34 chararray Schema hadoop apache-pig cloudera avro

hadoop - 在 PIG 中发送到 UDF 之前获取交叉数据的更好方法

送到 hadoop content chararray code apache-pig fuzzy-comparison

hadoop - PIG latin - DUMP 命令不显示

我只是尝试使用DUMP显示GROUPed记录的结果，但是没有显示数据，而是有很多日志数据。我只玩10条记录。详情:grunt>DUMPgrouped_records;2016-02-2117:34:24,338[main]INFOorg.apache.pig.tools.pigstats.ScriptState-Pigfeaturesusedinthescript:GROUP_BY,FILTER2016-02-2117:34:24,339[main]INFOorg.apache.pig.newplan.logical.optimizer.LogicalPlanOptimizer-{RU

hadoop latin apache executionengine apache-pig cloudera-cdh

hadoop - 无法在 pig 中运行转储

我正在尝试转储关系但出现以下错误。我试过start-all.sh并尝试使用hadoopnamenode-format格式化namenode。但我不明白哪里出了问题。Error:-Alreadytried9time(s);retrypolicyisRetryUpToMaximumCountWithFixedSleep(maxRetries=10,sleepTime=1000MILLISECONDS) 最佳答案启动JobHistoryServer$HADOOP_HOME/sbin/mr-jobhistory-daemon.shstar

中运 hadoop code section gt apache-pig

shell - 使用 azure 数据工厂 (ADF) 从 Pig/Hive 事件运行 shell 脚本

我正在使用AzureBlob存储，数据工厂和HDInsight集群。我有一个包含hadoop和hive相关代码的shell脚本，我正在尝试在ADF中添加/创建一个hive/Pig事件，从pig/hive的代码我正在调用一个shell脚本；作为myFile.pigsh/myFolder/myscript.sh==========================myFile.hql!/myFolder/myscript.sh在执行时，我得到Java.IO.Excption|无此文件或目录。根据异常pig/hive文件无法识别shell脚本路径；有没有人遇到过类似的问题，或者有没有人部署了p

shell azure section code hadoop azure-hdinsight azure-data-factory

json - Apache pig/Twitter 象鸟 Json 解析器 ClassCastException

我正在尝试使用Pig和Twitter的elephant-bird库解析一个相当简单的json文件，但它变成了一个非常痛苦的调试过程。json的结构如下:oid_id:(oid:chararray),bookmarks:{(oid_id:(oid:chararray),id:chararray,creator:chararray,position:chararray,creationdate:($ate:chararray))},lastaction:(date:chararray),settings:(preferredlanguage:chararray),userid:charar

ClassCastException Twitter 34 java apache json hadoop apache-pig elephantbird

Hadoop Pig 排序结果；找到订单位置？

我想对我的pig结果进行排序，然后能够确定某些项目在我的排序结果中的位置。示例:mydata=LOAD'mydata.txt'AS(label:chararray,rank_score:float);ranked_data=ORDERmydataBYrank_scoreDESC;ranked_positions=FOREACHranked_dataGENERATElabel,AUTO_INCREMENT_ID;results=FILTERranked_dataBYlabel='item1'ORlabel='item2';DUMPresults;AUTO_INCREMENT_ID在我的完

Hadoop Pig section item code apache-pig

hadoop - 选择 : Hadoop custom jars, Hadoop Streaming、Pig 或 Mahout 中的哪一个？

我正在从事一个NLP项目，该项目可以创建实体集并计算大型语料库的成对相似性。目前我正在使用hadoopstreaming并在Python中实现了所有映射器和缩减器。由于算法需要多轮map-reduce，我使用Shell脚本来链接作业。现在这是我的顾虑和我接下来想做的事情:[问题1]。作业链和作业控制。链接hadoop流作业是有问题的。如果作业序列(job1-job2-job3)中的作业2失败，我必须手动删除输出文件夹，调整启Action业的脚本文件并从中间重新运行作业序列。我真的希望找到一种更聪明的方法来做到这一点。由于我需要经常调整算法的参数和逻辑，我不想一次又一次地重复这些步骤。[

Hadoop Streaming strong section 自定 mapreduce apache-pig mahout hadoop-streaming

java - 如何在 pig 文件中使用 .jar

我有两个输入文件smt.txt和smo.txt。jar文件读取文本文件并根据java文件中描述的一些规则拆分数据。pig文件通过mapreduce将这些数据放入输出文件。register'maprfs:///user/username/fl.jar';DEFINEFixedLoaderfl();mt=load'maprfs:///user/username/smt.txt'usingFixedLoader('-30','30-33',...........)AS(.........);mo=load'maprfs:///user/username/smo.txt*'usingFixed

何在 java FixedLoader apache section hadoop mapreduce apache-pig mapr

hadoop - PIG UDF 处理拆分成不同映射器的多行元组

我有一个文件，其中每个元组跨越多行，例如:STARTname:Jimphone:2128789283address:562ndstreet,NewYork,USAENDSTARTname:Tomphone:6308789283address:565thstreet,Chicago,13611,USAEND...以上是我文件中的2个元组。我编写了定义getNext()函数的UDF，该函数检查它是否开始，然后我将初始化我的元组；如果是END那么我将返回元组(来自字符串缓冲区)；否则我只会将字符串添加到字符串缓冲区。它适用于小于HDFSblock大小64MB(在AmazonEMR上)的文件大

多行射器 code 自定 apache hadoop amazon-web-services mapreduce user-defined-functions apache-pig

133 134 135136137 138 139