草庐IT

pig4cloud

全部标签

hadoop - 使用 Pig 将数据移动到 HBASE

我尝试在我的hbase中移动851数据,因为我使用以下命令创建了hbasecreate'customers','customers_data'我使用pig脚本移动文件。我的pig脚本是STOCK_A=LOAD'/user/cloudera/xxx'USINGPigStorage('|');data=FILTERSTOCK_ABY($0matches'.*MH.*');MH_DATA=FOREACHdataGENERATE$1,$3,$4;STOREMH_DATAinto'hbase://customers'USINGorg.apache.pig.backend.hadoop.hbase

hadoop - 在引擎盖下? PIG 在哪里保存中间结果/关系数据。?

LOAD函数/命令从HDFS或本地FS加载数据。例如:-gurnt>employees=LOAD'hdfs://localhost:9090/pig_dir/data.txt'USINGPigStorage(',')as(id:int,salary:int,...etc)可以执行哪些pig命令——比如grunt>wellpaid_employees=FILTERemployeesBYsalary>'100000';所以我开始思考,pig在哪里存储“员工”数据/关系。当需要进一步处理时使用它,即生成wellpaid_employees。1)employees关系——如果它只是将emplo

hadoop - 如何从 Apache pig 中的日期获取星期几名称?

给定“03/09/1982”,我们怎么能说这是星期几呢。在这种情况下,它将是“星期二”。是否可以在单个查询中获取?谢谢 最佳答案 您可以使用ToDate()将此字符串转换为日期对象,然后使用ToString()再次转换为具有所需格式的字符串,不要忘记Pig使用JavaSimpleDateFormat处理日期的类。ToString(ToDate('03/09/1982','dd/MM/yyyy'),'EEE') 关于hadoop-如何从Apachepig中的日期获取星期几名称?,我们在St

java - 将参数传递给 pig udf 无法使用参数实例化

我正在尝试编写可以接受参数的PigUDF。我看了一些博客,了解到可以通过添加参数化构造函数来完成。所以我的UDF代码是:importjava.io.IOException;importjava.util.List;importorg.apache.pig.EvalFunc;importorg.apache.pig.data.Tuple;importorg.apache.commons.lang.StringUtils;publicclassLeftPadextendsEvalFunc{Stringsize;StringpadChar;publicLeftPad(Stringsize,S

csv - 在 pig 中存储多个变量

我对Pig非常陌生,我不确定要用谷歌搜索什么,因为我得到的那些结果并没有真正解决我的问题。我现在拥有的。a=LOAD'SOME_FILE.csv'usingPigStorage(',')ASschema;C=FOREACHBGENERATE$0,$1,$2;STORECinto'somestorage'usingPigStorage(';')我想做的是通过for循环运行它并将它们存储在同一个文件中。我如何实现这一点?谢谢。换句话说,我有SOME_FILE.csv、SOME_FILE_1.csv、SOME_FILE_2.csv等等。但我想通过相同的FOREACH语句运行它们并且只运行一个

hadoop - 在 Google Cloud Dataproc 上运行 xgboost

我是虚拟机分布式学习的新手。现在我有一个大数据集,想在GoogleCloudDataproc上运行xgboost。我查看了xgboostgit中关于在AWS上运行的教程,但我认为这与GoogleCloud不同。任何建议、相关链接、教程将不胜感激!此致! 最佳答案 我会说GoogleCloudMachineLearningEngine(CloudML)是最适合机器学习算法的产品,因为它是一种托管服务,您可以专注于模型开发,而不必担心基础架构。Here是关于在CloudML上使用XGBoost进行在线预测的教程。正如您提到的,您有一个大

hadoop - 使用 Pig Latin - Hadoop 将元组插入内袋

我正在尝试使用PigLatin创建以下格式的关系:userid,day,{(pid,fulldate,x,y),(pid,fulldate,x,y),...}关系描述:每个用户(userid)在每一天(day)购买了多个产品(pid)我正在将数据加载到:A=LOAD'**fromaHDFSURL**'AS(pid:chararray,userid:chararray,day:int,fulldate:chararray,x:chararray,y:chararray);B=GROUPABY(userid,day);DescribeB;B:{group:(userid:chararray

hadoop - 如何使用 Apache Pig 获取类似 GROUP BY 的 SQL?

我有以下名为movieUserTagFltr的输入:(260,{(260,starwars),(260,GeorgeLucas),(260,sci-fi),(260,cultclassic),(260,ScienceFiction),(260,classic),(260,supernaturalpowers),(260,nerdy),(260,ScienceFiction),(260,criticallyacclaimed),(260,ScienceFiction),(260,action),(260,script),(260,"imaginaryworld),(260,space),

hadoop - Apache Pig 转换顺序

我正在阅读AlanGates的PigProgramming。考虑代码:ratings=LOAD'/user/maria_dev/ml-100k/u.data'AS(userID:int,movieID:int,rating:int,ratingTime:int);metadata=LOAD'/user/maria_dev/ml-100k/u.item'USINGPigStorage('|')AS(movieID:int,movieTitle:chararray,releaseDate:chararray,imdbLink:chararray);nameLookup=FOREACHmet

azure - 使用 NiFi 从 Azure 到 Google Cloud Platform 的数据流

我的目标是使用NiFi将json/xml文件从Azure移动到GoogleCloudPlatform(GCP)>。在我所有的研发之后,我发现了一些可能有用的处理器。列表如下:获取文件放置文件putGCSObject-将数据放入GCPFoundthislinkasanalternativetogetfilesfromAzuresincethereisnoin-builtprocessoravailable上面的链接很复杂。所以根据我的目标,我走对了吗?我需要额外的处理器吗??以及在定义此流程时我需要进行的任何重要配置?请帮助我,因为我是新手并且刚刚开始使用NiFi