PIG_HOME_草庐IT

hadoop - HDFS、HBase、Pig、Hive 和 Azkaban 之间的关系？

我对Apache有点陌生Hadoop.我看过this和this关于Hadoop、HBase、Pig、Hive和HDFS的问题。他们都描述了上述技术之间的比较。但是，我已经看到，通常一个Hadoop环境包含所有这些组件(HDFS、HBase、Pig、Hive、阿兹卡类)。有人能以架构工作流的方式解释这些组件/技术与它们在Hadoop环境中的职责之间的关系吗？最好有一个例子？最佳答案总体概述:HDFS是Hadoop的分布式文件系统。直观上，您可以将其视为跨越许多服务器的文件系统。HBASE是一个面向列的数据存储。它以Google的B

java - 如何找到 JAR :/home/hadoop/contrib/streaming/hadoop-streaming. jar

我正在练习一个关于AmazonEMR的多视角视频教程。我被卡住了，因为我收到此错误而无法继续不是有效的JAR:/home/hadoop/contrib/streaming/hadoop-streaming.jar请注意教程是旧的，它使用的是旧的Emr版本。我使用的是最新版本，这是个问题吗？我采取的步骤是在腻子中输入凭据之后1)Hadoop2)mkdirstreamingCode`3)wget-o./streamingCode/wordSplitter.pys3://elasticmapreduce/samples/wordcount/wordSplitter.py4)hadoopjar

streaming hadoop section java python amazon-web-services emr

hadoop - 如何为 PIG 或 HIVE 中的行添加行号？

我在使用ApachePig添加行号时遇到问题。问题是我有一个STR_ID列，我想为STR_ID中的数据添加一个ROW_NUM列，这是STR_ID的行号。例如，这里是输入:STR_ID------------3D64B18BC842BAECEFA8EFB6346B13E4E2406D8A9D0249B49FD024AA52BA如何获得如下输出:STR_ID|ROW_NUM----------------------------3D64B18BC842|1BAECEFA8EFB6|2346B13E4E240|36D8A9D0249B4|49FD024AA52BA|5可以接受使用Pig或Hi

行号何为 section code hadoop hive apache-pig

hadoop - 在 Pig 中将一个元组拆分为多个元组

我喜欢从一个元组生成多个元组。我的意思是:我有包含以下数据的文件。>>catdataID|ColumnName1:Value1|ColumnName2:Value2所以我通过下面的命令加载它grunt>>A=load'$data'usingPigStorage('|');grunt>>dumpA;(ID,ColumnName1:Value1,ColumnName2:Value2)现在我想把这个元组拆分成两个元组。(ID,ColumnName1,Value1)(ID,ColumnName2,Value2)我可以将UDF与foreach一起使用并生成吗？像下面这样的东西？grunt>>fo

hadoop Pig code pre section apache-pig

hadoop - 在 PIG (Hadoop) 中将输入拆分为子字符串

假设我在Pig中有以下输入:some我想把它转换成:ssosomsome我(还)没有找到一种方法来迭代Piglatin中的chararray。我找到了TOKENIZE函数，但它在单词边界上split。那么“拉丁pig”可以做到这一点还是需要Java类才能做到这一点？最佳答案尼尔斯，TOKENIZE采用定界符参数，因此您可以将其拆分为每个字母；但是我想不出一种方法让它产生重叠token。不过，在Pig中编写UDF非常简单。您只需实现一个名为EvalFunc的简单接口(interface)(此处有详细信息:http://wiki.a

hadoop section 编写 apache mapreduce apache-pig

hadoop - PIG - 标量在输出中有多行

我有以下电影数据库的数据集:评分:UserID、MovieID、评分电影:电影ID、类型用户:UserID、性别、年龄我写了一个PIG脚本来获取年龄段(20-30)中评分最高的电影的女性用户。以下是我目前得到的代码:users_input=load'/users.dat'USINGPigStorage('\u003B')as(UserID:long,gender:chararray,age:int,occupation:int,zip:long);movies_input=load'/movies.dat'USINGPigStorage('\u003B')as(MovieID:long

多行 hadoop users temp ratings mapreduce apache-pig

hadoop - 您如何处理 Apache Pig 中的空输入文件或丢失的输入文件？

我们的工作流程使用AWSelasticmapreduce集群来运行一系列Pig作业，以将大量数据处理成聚合报告。不幸的是，输入数据可能不一致，并可能导致没有输入文件或0字节文件被提供给管道，甚至由管道的某些阶段生成。在LOAD语句期间，如果Pig找不到任何输入文件或任何输入文件为0字节，它就会失败。有什么好的方法可以解决这个问题(希望在Pig配置或脚本或Hadoop集群配置中，无需编写自定义加载器...)？(因为我们使用的是AWSelasticmapreduce，所以我们只能使用Pig0.6.0和Hadoop0.20。) 最佳答案

何处 hadoop section Pig 的 apache-pig

hadoop - Pig 0.11.1 - 对时间范围内的组进行计数

我有一个数据集A，它有时间戳、访问者、URL:(2012-07-21T14:00:00.000Z,joe,hxxp:///www.aaa.com)(2012-07-21T14:01:00.000Z,mary,hxxp://www.bbb.com)(2012-07-21T14:02:00.000Z,joe,hxxp:///www.aaa.com)我想在一个时间窗口(例如10分钟)内测量每个用户每个URL的访问次数，但作为一个按分钟递增的滚动窗口。输出将是:(2012-07-21T14:00to2012-07-21T14:10,joe,hxxp://www.aaa.com,2)(2012-

hadoop Pig minute code section mapreduce range apache-pig

hadoop - 安全退出 pig shell 命令

当我在Pig交互式shell环境中输入一些错误命令时，它会进入监听模式(>>)，如下所示。我如何安全地退出这个命令，但仍然留在pig壳环境中？Ctrl+C将我带出pig壳，直到那时我才失去我的环境设置。**grunt>Test_group=groupBlock2_Prep_filterby(page_visit_idasgrp_page_visit_id,page_user_guidasgrp_page_user_guid);>>;>>>>** 最佳答案我查看了pig源代码。这称为secondary_prompt(在PigScri

hadoop shell section kbd code apache-pig

hadoop - 对 Hive 中存储的数据运行 Pig 查询

我想知道如何运行以Hive格式存储的Pig查询。我已将Hive配置为存储压缩数据(使用本教程http://wiki.apache.org/hadoop/Hive/CompressedStorage)。在此之前，我曾经只使用带有Hive分隔符(^A)的普通Pig加载函数。但是现在Hive将数据存储在压缩的序列文件中。使用哪个加载函数？请注意，不需要像此处提到的紧密集成:UsingHivewithPig,只是使用什么加载函数来读取Hive生成的压缩序列文件。谢谢大家的回答。最佳答案这是我发现的:如果将数据存储为RCFile，则使

hadoop Hive apache SequenceFileLoader apache-pig