草庐IT

hadoop - PIG 拉丁文脚本 - 使用组和 TOBAG

我有一个包含以下内容的文件输入:TOYID;TOYSeries;ModuleID;ID;PART_NUMBER;SUPPLIER;LAND394107;C204;731305;69807402;A0001532122;ABC;AT394107;C204;731307;69807402;A0001532122;ABC;AT394107;C204;731315;69807402;A0001532122;ABC;AT394107;C204;731325;69807402;A0001532122;ABC;AT394107;C204;731335;69807402;A0001532122;ABC

hadoop - pig 中的 "unable to open iterator for an alias"是什么意思?

我正在尝试使用联合运算符,如下所示uni_b=UNIONA,B,C,D,E,F,G,H;这里所有的关系A,B,C...H都具有相同的模式当我使用dump运算符时,直到85%运行正常..之后它显示以下错误..ERROR1066:Unabletoopeniteratorforaliasuni_b这是什么?问题出在哪里?我应该如何调试?这是我的pig脚本...ip=load'/jee/jee_data.txt'USINGPigStorage(',')as(id:Biginteger,fname:chararray,lname:chararray,board:chararray,eid:cha

json - 在 Pig 中解析复杂的嵌套 JSON

我想将亿万富翁JSON数据集解析为Pig。可以找到JSON文件here.这是每个条目的内容:{"wealth":{"worthinbillions":1.2,"how":{"category":"ResourceRelated","fromemerging":true,"industry":"Miningandmetals","waspolitical":false,"inherited":true,"wasfounder":true},"type":"privatizedandresources"},"company":{"sector":"aluminum","founded":1

sql - 在 Hive 或 Impala 或 Pig 中通过字符串匹配连接表

我有两个表A和B,其中B很大(2000万乘以300)和A大小适中(300kx10)。A包含一列地址,B包含3列,它们可以放在一起形成正确的街道地址。例如,在A中,地址列可以是:id|Address-----------233|123MainSt在B中我们可以:Number|Street_name|Street_suffix|Tax------------------------------------------------123|Main|Street|320.2我想使用类似于LIKE的字符串匹配来加入它们,如下所示:selectA.id,B.TaxfromAleftjoinBonA

hadoop - 更好地从 Hive 或 Pig 中的平面文件读取?

无法在任何地方找到关于此的直接答案。我正在将一个传入的数据集连接到几个以前位于Web服务后面的MySQL表中的大表。我将表转储到Hadoop中的平面CSV文件,并使用Pig加载传入的数据集和表文件,并执行连接。进展缓慢,因为有多个表文件要连接,而且文件本身非常大。我只是想在单个字段上加入LEFTOUTER,没什么特别的。所以,我的问题是,将CSV文件加载到Hive表中并在Pig中使用HCatLoader而不是仅加载CSV文件是否有任何性能优势?除了类似SQL的接口(interface)来查询表之外,Hive似乎没有提供任何好处,当我只是将数据集加入整个事物时,这并不重要。

hadoop - 在 pig 中分离元组的元组

我得到的结果是元组的元组形式。我需要将一个元组中的所有数据放入一列,将其他数据放入另一列。我不知道如何实现这一目标。以下是我的数据。示例:((completed,completed,completed,completed,completed,completed,completed,completed,completed,completed,completed,completed,completed,completed,completed,completed,completed,completed,completed),(10160-0),(20140403,20151207,20160

hadoop - Pig HCatLoader java.lang.String 无法转换为 org.apache.hadoop.hive.common.type.HiveVarchar

我有下面的外部配置单元表,稍后我将使用它进行处理。CREATEEXTERNALTABLEhive_test_table(cmp_dteDATE,my_indCHAR(1),typ_descVARCHAR(40),def_typ_descVARCHAR(60),tt_indCHAR(1),nn_nmVARCHAR(80),xzs_descVARCHAR(60),pqa_descVARCHAR(40),aac_cntINT,pqdd_cntINT,nnc_cntINT,ors_amtDECIMAL(18,2),rddd_amtDECIMAL(18,2),btdff_idBIGINT,fil

mongodb - 使用 Pig 将 HDFS 数据存储到 MongoDB

我是Hadoop新手,需要将Hadoop数据存储到MongoDB中。这里我使用Pig将Hadoop中的数据存储到MongoDB中。我下载并注册了以下驱动程序,以便在给定命令的帮助下在PigGruntshell中执行此操作,REGISTER/home/miracle/Downloads/mongo-hadoop-pig-2.0.2.jarREGISTER/home/miracle/Downloads/mongo-java-driver-3.4.2.jarREGISTER/home/miracle/Downloads/mongo-hadoop-core-2.0.2.jar在此之后,我使用以

hadoop - Map Reduce 已完成但 pig 作业失败

我最近遇到了这种情况,其中MapReduce作业似乎在RM中成功,其中PIG脚本返回退出代码8,表示“Throwablethrown(意外异常)”按要求添加脚本:REGISTER'$LIB_LOCATION/*.jar';--setnumberofreducersto200SETdefault_parallel$REDUCERS;SETmapreduce.map.memory.mb3072;SETmapreduce.reduce.memory.mb6144;SETmapreduce.map.java.opts-Xmx2560m;SETmapreduce.reduce.java.opts

csv - 如何将 pig 输出存储到配置单元表?

我在Azure上有HDInsight集群,在hdfs(Azure存储)中有.csv文件。我想使用apache-pig处理这些文件并将输出存储在配置单元表中。为此,我编写了以下脚本:A=LOAD'/test/input/t12007.csv'USINGPigStorage(',')AS(year:chararray,ArrTime:chararray,DeptTime:chararray);describeA;dumpA;storeAinto'testdb.tbl3'usingorg.apache.hive.hcatalog.pig.HCatStorer();此脚本成功加载文件,描述结构