草庐IT

hadoop - 运行 PIG 脚本时出错

x=load'/home/manish/Work/inputs/testInput.txt'usingPigStorage(',')AS(key:chararray,value:int);y=groupxbtkey;r=foreachy{m=generatex.valueASone;ord_m=ORDERmBYonedesc;lim_m=LIMITord_m3;generategroup,lim_m;};获取错误为:2014-12-0920:07:45,978[main]ERRORorg.apache.pig.tools.grunt.Grunt-ERROR1200:mismatched

java - Pig 自定义 loadFunc 始终使用 1 个映射器和 1 个 inputSplit

我使用自定义InputFormat和RecordReader创建了自定义loadFunc。每当InputFormat返回多个输入拆分时,PigSplit始终仅包含一个输入拆分并且仅使用一个映射器。实现太大,无法在此处发布,但是否有任何明显的原因可能导致这种情况发生?编辑:我正在使用pig0.13并且通过添加一些日志记录我发现Loadfunc创建的InputFormat返回包含两个输入拆分的列表,然后PigInputFormat使用此列表创建PigSplits.我仍然找不到Pig在哪里省略了这些输入拆分中的一个而只使用了第一个。这是PigInputFormat.java(src)第273

hadoop - 使用相同的 Pig 脚本存储多个文件

文件有数据:A12345B32122C23232只运行一次pig脚本并将第一个record(A12345)存储在一个文件中,secondrecord(B32122)在第二个文件中以及third(c23232)在第三个文件中。现在,如果我们运行pig脚本,它将为每个商店运行作业。请让我知道选项。 最佳答案 使用SPLIT运算符根据某些表达式将关系的内容划分为两个或多个关系。根据表达式中陈述的条件:Atuplemaybeassignedtomorethanonerelation.Atuplemaynotbeassignedtoanyre

hadoop - SUM 函数上的 Pig 错误

我有这样的数据-storetrn_datedept_idsale_amt12014-12-141011000765512014-12-141011000765412014-12-141011000754462014-12-1410410008654482014-12-14101100000092014-12-141061000000我想得到sale_amt的总和,为此我正在做首先,我使用以下方式加载数据:table=LOAD'table'USINGorg.apache.hcatalog.pig.HCatLoader();然后将store、tran_date、dept_id上的数据分组g

hadoop - 在 pig 中读取二进制 avro

我正在将一个二进制对象发送到HDFS,并且有我的水槽代理和接收器设置如下所示a1.sinks.k1.type=hdfsa1.sinks.k1.channel=c1a1.sinks.k1.hdfs.path=/user/%y-%m-%d/%H%M/%Sa1.sinks.k1.hdfs.filePrefix=events-a1.sinks.k1.hdfs.round=truea1.sinks.k1.hdfs.roundValue=10a1.sinks.k1.hdfs.roundUnit=minutea1.sinks.k1.hdfs.fileType=DataStreama1.sinks.k

hadoop - 相当于 pig 中的 Union_map

我一直在努力寻找pig中的union_map()等价物。我确信TOMAP函数引入了MAP数据类型。但要求是为给定ID带来所有MAP,如下所示。selectI1,UNION_MAP(MAP(Key,Val))asnew_valgroupbyI1;示例输入和结果如下所示。输入ID,Key,ValID1,K1,V1ID2,K1,V2ID2,K3,V3ID1,K2,V4ID1,K1,V7根据ID从表组中选择ID,UNION_MAP(TO_MAP(Key,VAL));结果ID1,(K1#V7,K2#V4)ID2,(K1#V2,K3#V3)我想在pig中获得类似的输出。

azure - hdinsight pig 作业提交 502 错误

我在将pig作业提交到hdinsight集群时收到502错误。关于如何修复集群的任何想法?上次出现此错误时,我删除了集群并重新创建了它,想找到一种更好的方法来修复该错误。这是我得到的错误:Microsoft.WindowsAzure.Management.HDInsight.Framework.Core.Library.WebRequest.HttpLayerException:Requestfailedwithcode:BadGatewayContent:502-Webserverreceivedaninvalidresponsewhileactingasagatewayorprox

hadoop - 在 Hadoop 2 上的 pig 15 上运行时出现嵌入式 pig 错误

每当我从终端运行任何apachepig代码时,一切顺利,我得到了结果。所以我得出结论,我的Pig0.15.0和Hadoop2.7.0安装没问题。问题是当我从java代码中运行pigServer时:PigServerpigServer=newPigServer(ExecType.MAPREDUCE,conf);pigServer.setBatchOn();pigServer.debugOff();pigServer.setJobName(JobId);pigServer.registerScript(scriptUrl,params);pigServer.executeBatch();我

hadoop - 无法在 Apache Tez 上运行 Pig 拉丁脚本

我有一个伪分布式单集群Ubuntu机器。我写了一个简单的piglatin脚本,它在使用mapreduce作为执行模式时运行良好。但是当我使用-x开关将tez用作执行模式时,出现以下错误2015-08-1717:12:22,344[PigTezLauncher-0]ERRORorg.apache.pig.backend.hadoop.executionengine.tez.TezJob-CannotsubmitDAGorg.apache.tez.dag.api.SessionNotRunning:TezSessionhasalreadyshutdownatorg.apache.tez.c

hadoop - pig 脚本对 10 block 训练数据进行采样,pig 脚本被卡住了

背景我有一个数据高度不平衡的二元分类任务。具体来说,有标签0的数据比标签1的数据多得多。为了解决这个问题,我计划进行子采样标签0的数据与标签1的数据的大小大致匹配。我在pig脚本中做了这个。代替只采样一block训练数据,我这样做了10次以生成10个数据block来训练10个分类器类似于装袋以减少方差。示例pig脚本-----------------------------------generatetrainingchunki-----------------------------------subsamplingdatawithlabel0labelZeroTrainingDat