Pig-Latin_草庐IT

hadoop - 在 hive 或 Pig 中创建序列号

我面临数据转换问题:我这里的表格有3列:客户端、事件、时间戳。我基本上想根据时间戳为给定客户端的所有事件分配一个序列号，这基本上是我在下面添加的“序列”列。ClientEventTimeStampSequenceC1Ph2014-01-3012:15:231C1Me2014-01-3115:11:342C1Me2014-01-3117:16:053C2Me2014-02-0109:22:521C2Ph2014-02-0117:22:522我不知道如何在hive或Pig中创建这个序列号。你有什么线索吗？提前致谢!纪尧姆最佳答案将所

中创 hadoop section input hive apache-pig hiveql

hadoop - 如何在 Pig Latin 中实现 Levenshtein 算法

我有两个数据集。A{(1,apple),(2,orange),(3,banana)}和B={(1,oracle),(2,ape),(3,naana),(4,orlando),(5,应用程序)(6,横幅)}我有一个udf，它在两个字符串之间给出Levenshtein分数。但是如何计算A中的每个字段与B中的所有字段以获得B中最匹配的字符串。例如，A中“apple”的Levenshtein得分对于app的得分高于B中的ape甲骨文在A中的Levenshtein得分比奥兰多在B中得分更高A中“banana”的Levenshtein得分更多的是naana而不是B中的banner。

何在 Levenshtein section 得分 hadoop foreach nested apache-pig levenshtein-distance

hadoop - 为什么 Amazon EMR 上的机器越多，我的 Pig UDF 就不能更快？

我是Hadoop和大数据方面的新手。我们每天都有数百个日志文件。每个文件大约78Mb。因此，我们认为我们可以从Hadoop作业中获益，我们可以编写PigUDF并提交给AmazonEMR。我们做了一个非常简单的PigUDFpublicclassProcessLogextendsEvalFunc{//ExtractIPAddressfromlogfilelinebylineandconvertthattoJSONformat.}它在本地与Pig和hadoop一起工作。因此，我们提交给AmazonEMR，并使用5倍超大实例运行。大约花了40分钟才完成。因此，我们认为如果我们将实例加倍(10倍

hadoop Amazon section 大数 amazon-web-services apache-pig

hadoop - PIG 脚本 IF ELSE 语句

pig脚本是否支持if-else语句这是我想做的:if($NAME=='乔伊')做一点事别的做点什么这可行吗？谢谢最佳答案它被称为“Bincond”运算符语句如:(Price>75?'High':'Low')也是有效的对于处理空记录:((NameisnullorIsEmpty(Name))?{('unknown')}:Name)在foreach语句中将它们与其他字段一起使用别名，即:A=load'x/y/Price.csv'as(Name,Product,Price);B=foreachAgenerateName,Product

hadoop ELSE section 39 code apache-pig

hadoop - 使用 Apache Pig Latin 对数据进行条件求和

我正在尝试使用ApachePigLatin进行一些日志处理，我想知道是否有更简单的方法来执行此操作:filtered_logs=FOREACHlogsGENERATEnumDay,reqSize,optimizedSize,origSize,compressionPct,cacheStatus;grouped_logs=GROUPfiltered_logsBYnumDay;results=FOREACHgrouped_logsGENERATEgroup,(SUM(filtered_logs.reqSize)+SUM(filtered_logs.optimizedSize))/10485

求和 hadoop filtered_logs filtered logs logging apache-pig

hadoop - PIG 存储函数 : storing only certain fields is possible?

我有一个用例，我只需要将某些字段存储到HDFS。我知道我可以做一些foreach等等来保留感兴趣的领域，但我想知道这在Store函数中是否可行。最佳答案这可以使用您自定义的Store函数:http://ofps.oreilly.com/titles/9781449302641/load_and_store_funcs.html但一般来说，使用GENERATE并将所需字段存储在一些其他元组中要容易得多，这些元组将仅在STORE函数中使用关于hadoop-PIG存储函数:storing

possible certain section code load_and_store_funcs hadoop apache-pig

java - 从 Java 应用程序中执行 Pig

是否可以在Java应用程序中运行ApachePig作业，而无需fork外部进程？Pig和Hadoop似乎都是用Java编写的，但并不真正提供JavaAPI。与其依赖shell脚本，我更愿意在JavaSpring应用程序中使用这些工具。最佳答案好像有JavaAPIforPig.根据这个API，有一个PigRunnerclass.有了它，您可以通过创建一个专用的Springbean轻松地将它添加到您的Spring应用程序中。关于java-从Java应用程序中执行Pig，我们在Stack

java section noreferrer spring hadoop apache-pig

hadoop - Pig 到底什么时候使用 Hadoop MapReduce 环境？

我对HadoopMapreduce和Pig环境有疑问。在thisthread中，我发现PigLatin代码被Pig系统解释了。首先，我认为Pig使用map和reduce方法创建.jar文件，然后将此文件“发送”到HadoopMapreduce环境以运行mapreduce作业(这是Pig开发人员future的工作)。那么，PigSystem到底在什么时候使用HadoopMapreduce？它是在解释PigLatin代码的某个地方吗？或者，如果我换句话说问我的问题:作为输入发送到HadoopMapreduce的Pig的输出是什么？非常感谢您的回答。最佳答案

MapReduce 到底 Pig section Hadoop apache-pig

hadoop - PIG 将文本行转换为稀疏向量

我必须使用ApachePIG将需要组合在一起的文件。第一个文件包含书名列表，就像这样，每个书名都单独占一行。TedDunning,MahoutinActionLeoTolstoy,WarandPeaceDouglasAdams,Thehitchhikerguidetothegalaxy.JamesSununu,galaxyIIIforDummiesTomMcArthur,TheWarwewentto第二个文件是单词及其ID的列表。像这样ted,12tom,13douglas,14galaxy,15war,16leo,17peace,18我需要加入这两个文件来产生这样的输出:对于“Leo

本行稀疏 code title pre hadoop apache-pig

hadoop - Pig map reduce job 将值放在适当的范围内

我有一个值列表作为一个数据源和第二个数据集，其中包含与值相关的范围。Dataset1:346202538Dataset2:1|3|A4|10|B11|20|C21|30|D31|31|E32|38|F39|40|GResult:3,A4,B6,B20,C25,D38,F我想创建某种类型的“JOIN”以将数据集1中的值与数据集2中的字符联系起来。最佳答案主要问题是MapReduce进行连接的方式需要键完全匹配，并且它会在分区器中随机存储内容(默认情况下)。使用JavaMapReduce可能有很多棘手的方法可以做到这一点。下面是我能

适当 hadoop code section pre mapreduce apache-pig