Pig

hadoop - PIG 拉丁文脚本 - 使用组和 TOBAG

我有一个包含以下内容的文件输入:TOYID;TOYSeries;ModuleID;ID;PART_NUMBER;SUPPLIER;LAND394107;C204;731305;69807402;A0001532122;ABC;AT394107;C204;731307;69807402;A0001532122;ABC;AT394107;C204;731315;69807402;A0001532122;ABC;AT394107;C204;731325;69807402;A0001532122;ABC;AT394107;C204;731335;69807402;A0001532122;ABC

hadoop - pig 中的 "unable to open iterator for an alias"是什么意思？

我正在尝试使用联合运算符，如下所示uni_b=UNIONA,B,C,D,E,F,G,H;这里所有的关系A,B,C...H都具有相同的模式当我使用dump运算符时，直到85%运行正常..之后它显示以下错误..ERROR1066:Unabletoopeniteratorforaliasuni_b这是什么？问题出在哪里？我应该如何调试？这是我的pig脚本...ip=load'/jee/jee_data.txt'USINGPigStorage(',')as(id:Biginteger,fname:chararray,lname:chararray,board:chararray,eid:cha

amp iterator DESC board generate hadoop apache-pig hadoop2 bigdata

json - 在 Pig 中解析复杂的嵌套 JSON

我想将亿万富翁JSON数据集解析为Pig。可以找到JSON文件here.这是每个条目的内容:{"wealth":{"worthinbillions":1.2,"how":{"category":"ResourceRelated","fromemerging":true,"industry":"Miningandmetals","waspolitical":false,"inherited":true,"wasfounder":true},"type":"privatizedandresources"},"company":{"sector":"aluminum","founded":1

json chararray 34 code hadoop apache-pig elephantbird

sql - 在 Hive 或 Impala 或 Pig 中通过字符串匹配连接表

中通 Impala code 39 Street sql hadoop hive apache-pig

hadoop - 更好地从 Hive 或 Pig 中的平面文件读取？

无法在任何地方找到关于此的直接答案。我正在将一个传入的数据集连接到几个以前位于Web服务后面的MySQL表中的大表。我将表转储到Hadoop中的平面CSV文件，并使用Pig加载传入的数据集和表文件，并执行连接。进展缓慢，因为有多个表文件要连接，而且文件本身非常大。我只是想在单个字段上加入LEFTOUTER，没什么特别的。所以，我的问题是，将CSV文件加载到Hive表中并在Pig中使用HCatLoader而不是仅加载CSV文件是否有任何性能优势？除了类似SQL的接口(interface)来查询表之外，Hive似乎没有提供任何好处，当我只是将数据集加入整个事物时，这并不重要。

hadoop Hive section data mapreduce apache-pig

hadoop - 在 pig 中分离元组的元组

我得到的结果是元组的元组形式。我需要将一个元组中的所有数据放入一列，将其他数据放入另一列。我不知道如何实现这一目标。以下是我的数据。示例:((completed,completed,completed,completed,completed,completed,completed,completed,completed,completed,completed,completed,completed,completed,completed,completed,completed,completed,completed),(10160-0),(20140403,20151207,20160

中分 hadoop completed 20110822 10160 xpath apache-pig

hadoop - Pig HCatLoader java.lang.String 无法转换为 org.apache.hadoop.hive.common.type.HiveVarchar

我有下面的外部配置单元表，稍后我将使用它进行处理。CREATEEXTERNALTABLEhive_test_table(cmp_dteDATE,my_indCHAR(1),typ_descVARCHAR(40),def_typ_descVARCHAR(60),tt_indCHAR(1),nn_nmVARCHAR(80),xzs_descVARCHAR(60),pqa_descVARCHAR(40),aac_cntINT,pqdd_cntINT,nnc_cntINT,ors_amtDECIMAL(18,2),rddd_amtDECIMAL(18,2),btdff_idBIGINT,fil

hadoop HiveVarchar apache java org hive apache-pig hcatalog

mongodb - 使用 Pig 将 HDFS 数据存储到 MongoDB

我是Hadoop新手，需要将Hadoop数据存储到MongoDB中。这里我使用Pig将Hadoop中的数据存储到MongoDB中。我下载并注册了以下驱动程序，以便在给定命令的帮助下在PigGruntshell中执行此操作，REGISTER/home/miracle/Downloads/mongo-hadoop-pig-2.0.2.jarREGISTER/home/miracle/Downloads/mongo-java-driver-3.4.2.jarREGISTER/home/miracle/Downloads/mongo-hadoop-core-2.0.2.jar在此之后，我使用以

mongodb hadoop apache 2017 apache-pig mongo-java-driver

hadoop - Map Reduce 已完成但 pig 作业失败

我最近遇到了这种情况，其中MapReduce作业似乎在RM中成功，其中PIG脚本返回退出代码8，表示“Throwablethrown(意外异常)”按要求添加脚本:REGISTER'$LIB_LOCATION/*.jar';--setnumberofreducersto200SETdefault_parallel$REDUCERS;SETmapreduce.map.memory.mb3072;SETmapreduce.reduce.memory.mb6144;SETmapreduce.map.java.opts-Xmx2560m;SETmapreduce.reduce.java.opts

hadoop Reduce mapreduce apache java apache-pig

csv - 如何将 pig 输出存储到配置单元表？

我在Azure上有HDInsight集群，在hdfs(Azure存储)中有.csv文件。我想使用apache-pig处理这些文件并将输出存储在配置单元表中。为此，我编写了以下脚本:A=LOAD'/test/input/t12007.csv'USINGPigStorage(',')AS(year:chararray,ArrTime:chararray,DeptTime:chararray);describeA;dumpA;storeAinto'testdb.tbl3'usingorg.apache.hive.hcatalog.pig.HCatStorer();此脚本成功加载文件，描述结构

配置单 csv code apache pig azure hadoop apache-pig

70 71 727374 75 76