草庐IT

pig4cloud

全部标签

mongodb - 使用 Pig 将 HDFS 数据存储到 MongoDB

我是Hadoop新手,需要将Hadoop数据存储到MongoDB中。这里我使用Pig将Hadoop中的数据存储到MongoDB中。我下载并注册了以下驱动程序,以便在给定命令的帮助下在PigGruntshell中执行此操作,REGISTER/home/miracle/Downloads/mongo-hadoop-pig-2.0.2.jarREGISTER/home/miracle/Downloads/mongo-java-driver-3.4.2.jarREGISTER/home/miracle/Downloads/mongo-hadoop-core-2.0.2.jar在此之后,我使用以

hadoop - Map Reduce 已完成但 pig 作业失败

我最近遇到了这种情况,其中MapReduce作业似乎在RM中成功,其中PIG脚本返回退出代码8,表示“Throwablethrown(意外异常)”按要求添加脚本:REGISTER'$LIB_LOCATION/*.jar';--setnumberofreducersto200SETdefault_parallel$REDUCERS;SETmapreduce.map.memory.mb3072;SETmapreduce.reduce.memory.mb6144;SETmapreduce.map.java.opts-Xmx2560m;SETmapreduce.reduce.java.opts

csv - 如何将 pig 输出存储到配置单元表?

我在Azure上有HDInsight集群,在hdfs(Azure存储)中有.csv文件。我想使用apache-pig处理这些文件并将输出存储在配置单元表中。为此,我编写了以下脚本:A=LOAD'/test/input/t12007.csv'USINGPigStorage(',')AS(year:chararray,ArrTime:chararray,DeptTime:chararray);describeA;dumpA;storeAinto'testdb.tbl3'usingorg.apache.hive.hcatalog.pig.HCatStorer();此脚本成功加载文件,描述结构

hadoop - 如何从 .t​​sv 文件加载 Pig 中的数据?

我有一个.TSV文件,其中包含HDFS中的数据,但我无法将其加载到Pig中。我使用的命令是“A=load'file_location'as(name:chararray,age:int,gpa:float);B=foreachAgenerate(name,age);DUMPB;Errorreturned:UnabletofindoperatorforaliasA 最佳答案 如果您不指定分隔符PIG使用默认的“,”作为加载文件的分隔符。因此您的加载语句失败。您必须明确指定分隔符“\t”。A=LOAD'file_location'USI

hadoop - 没有在 pig 中使用 SUM() 获得计算值

我的命令如下:Z=LOAD'/..file_path'USINGPigStorage(',')AS(name:CHARARRAY,gpa:int,salary:int);y=GROUPZBYgpa;R=FOREACHyGENERATESUM(Z.salary);我正在获取的输出DUMPR;作为:{all,()};请指导我。TIA。 最佳答案 您需要使用GROUPALL而不是GROUPBY来获取SUM.Z=LOAD'/..file_path'USINGPigStorage(',')AS(name:CHARARRAY,gpa:int,s

hadoop - crontab 计划的 Pig 脚本没有给出结果

我有pig脚本,当我从pig(mapreduce模式)运行时会给出正确的结果,但是当我从crontab调度时不会按照脚本存储输出。pig脚本是,a1=load'/user/training/abhijit_hdfs/id'usingPigStorage('\t')as(id:int,name:chararray,desig:chararray);a2=load'/user/training/abhijit_hdfs/trips'usingPigStorage('\t')as(id:int,place:chararray,no_trips:int);j=joina1byid,a2byid

python - 尝试从 Jupyter Notebook 使用 Spark 访问 Google Cloud Bigtable 时出现区域错误

我正在尝试从运行PySpark内核的JupyterNotebook中运行对GoogleCloudBigtable的并行访问。我以http://ec2-54-66-129-240.ap-southeast-2.compute.amazonaws.com/httrack/docs/cloud.google.com/dataproc/examples/cloud-bigtable-example.html为例我正在使用我的特定项目/区域/集群/表名称。身份验证通过在spark上下文中广播的服务帐户凭据进行。jconf={"hbase.client.connection.impl":"com.

hadoop - pig 错误 0 : Scalar has more than one row in the output

我有两个文件,我试图在模式匹配的基础上加入这两个文件。File1:weather.bbc.co.uk,112ads.facebook.com,113ads.amazon.co.uk,114www.sky.com,115news.bbc.co.uk,116pics.facebook.com,117File2:facebook.com,facebookbbc.co.uk,bbcnetflix.com,netflixflipkart.com,flipkartoutput:weather.bbc.co.uk,112,bbc.co.uk,bbcads.facebook.com,113,faceb

hadoop - 未找到(有效)输入数据!在 pig

我正在使用Pig加载XML数据。当我发出ILLUSTRATE命令时,出现错误。这就是我正在做的事情。REGISTERpiggybank-0.15.0.jarxml=LOAD'/xml/data/path'usingorg.apache.pig.piggybank.storage.XMLLoader('doc')as(x:chararray);ILLUSTRATExml;这是错误.........2018-03-2019:56:52,265[main]INFOorg.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigM

hadoop - PIG 如何将行数从 1 个别名返回到另一个别名

REGISTER'udf.py'usingjythonasmyfunc;loadhtml=load'./assignment/crawler'usingPigStorage('\u0001')as(id1:chararray,url:chararray,domain:chararray,content:chararray,source:chararray,date:chararray);loadhtml_content=FOREACHloadhtmlgeneratecontent;flatten=FOREACHloadhtml_contentgenerateflatten(TOKENI