PIG_HOME_草庐IT

hadoop - 使用 pig 或象夫的推荐系统

我正在以一种简单的方式在Hadoop上构建一个推荐系统，你能给我一个关于使用什么来构建这个推荐系统的意见吗。我想使用Apachepig或Apachemahout。在我的数据集中我有book_id,name,publisheruser_id,usernamebook_id,user_id,rating我的数据是c.s.v格式那么您能否建议我使用哪种技术来生成基于项目和基于用户的推荐系统。最佳答案 ApacheMahout将为您提供基于协同过滤算法的现成推荐引擎。使用Pig，您必须自己实现这些算法-在PigLatin中，这可能是一项相

hadoop - pig : Control number of mappers

我可以通过在生成缩减器的语句中使用PARALLEL子句来控制缩减器的数量。我想控制映射器的数量。数据源已经创建，我无法减少数据源中的部件数。是否可以控制我的pig语句生成的map数量？我可以对生成的map数量设置上下限吗？控制这个是个好主意吗？我尝试使用pig.maxCombinedSplitSize、mapred.min.split.size、mapred.tasktracker.map.tasks.maximum等，但它们似乎没有帮助。有人可以帮助我了解如何控制map的数量并可能分享一个工作示例吗？最佳答案映射器的数量有一个

Control mappers 射器 section 的 hadoop apache-pig

json - 将原始 JSON 加载到 Pig 中

我有一个文件，其中每一行都是一个JSON对象(实际上，它是stackoverflow的转储)。我想尽可能轻松地将它加载到ApachePig中，但我无法弄清楚如何告诉Pig输入格式是什么。这是一个条目的例子，{"_id":{"$oid":"506492073401d91fa7fdffbe"},"Body":"....","ViewCount":7351,"LastEditorDisplayName":"RichB","Title":".....","LastEditorUserId":140328,"LastActivityDate":{"$date":1314819738077},"L

json 34 elephantbird code hadoop schema apache-pig

hadoop - 如何在另一个 pig 脚本中调用 pig 脚本

我在hdfs中有一个包含100列的文件，我想使用pig对其进行处理。我想将这个文件加载到一个元组中，在一个单独的pig脚本中包含列名，并从其他pig脚本中重用这个脚本。我该怎么做？假设这个100列的pig脚本是-100col.pig。我如何从anotherone.pig调用它？最佳答案检查exec命令(用于批处理)或run命令(用于交互式脚本)。此外，如果您需要使用(非grunt)shell命令，请检查fs命令。这是一个很好的引用:http://pig.apache.org/docs/r0.7.0/piglatin_ref2.h

何在 pig section code hadoop apache-pig

hadoop - 在 Pig 中删除单列

我正在按包含大约20个ID的列表过滤表格。现在我的代码如下所示:A=LOAD'ids.txt'USINGPigStorage();B=LOAD'massive_table'USINGPigStorage();C=JOINABY$0,BBY$0;D=FOREACHCGENERATE$1,$2,$3,$4,...STOREDINTO'foo'USINGPigStorage();我不喜欢的是D行，我必须在其中重新生成一个新表以通过显式声明我想要显示的每个其他列(有时是很多列)来摆脱连接列。我想知道是否有等同于:FILTERBBY$0IN(A)或:DROP$0FROMC

hadoop Pig section code pre mapreduce apache-pig

java - 在哪里可以看到从 hadoop pig 语句生成的 mapreduce 代码

我们都知道hadooppig语句被转换成javamapreduce代码。我想知道有什么方法可以查看从pig语句生成的mapreduce代码？最佳答案 Weallknowthathadooppigstatementsareconvertedintojavamapreducecode事实并非如此。HadoopPig语句未转换为JavaMapReduce代码。更好的思考方式是Pig代码在运行于JavaMapReduce的Pig解释器中“解释”。这样想:Python和Perl不“生成”C代码，它们通过执行指令的C程序(解释器)来运行。基本

mapreduce hadoop section code java apache-pig

database - hadoop pig 返回前 5 行

我想返回一组的前5行。基本上我有一个表格，其中包含一些州名及其按州名分组的城市。我想要该州排名前5位的城市，而不是全部。我如何使用pig来做到这一点？提前谢谢你。最佳答案在GROUPBY之后，在FOREACH中...您可以先执行ORDERBY，然后是LIMIT。这将首先按城市大小对每个组中的事物进行排序，然后拉出前5名。B=GROUPABYstate;C=FOREACHB{DA=ORDERABYcitysizeDESC;DB=LIMITDA5;GENERATEFLATTEN(group),FLATTEN(DB.citysize)

database hadoop section code FLATTEN apache-pig

hadoop - 如何在 pig 中生成行号？

中生成行 section 行号 code hadoop apache-pig

hadoop - Pig 过滤掉不匹配项

我有一堆具有各种前缀的字符串，包括“未知:”我真的很想在我的Pig脚本中过滤掉所有以“未知:”开头的字符串，但它似乎不起作用。simpleFilter=FILTERrecordsBYNOT(mystrMATCHES'^unknown');我已经尝试了正则表达式的一些其他排列，但似乎MATCHES不能很好地与NOT一起工作。我错过了什么吗？使用Pig0.9.2 最佳答案这是因为matches运算符的操作与Java的String#matches完全相同，即它试图匹配整个String而不仅仅是它的一部分(你的例子中的前缀).只需更新您的

hadoop Pig section code MATCHES apache-pig

hadoop - 在 Elastic Map Reduce 上将分布式缓存与 Pig 结合使用

我正在尝试在Amazon的ElasticMapReduce上运行我的Pig脚本(使用UDF)。我需要在我的UDF中使用一些静态文件。我在我的UDF中做了这样的事情:publicclassMyUDFextendsEvalFunc{publicDataBagexec(Tupleinput){...FileReaderfr=newFileReader("./myfile.txt");...}publicListgetCacheFiles(){Listlist=newArrayList(1);list.add("s3://path/to/myfile.txt#myfile.txt");retu

Elastic hadoop section myfile code apache-pig elastic-map-reduce