PIG

java - 如何解析 xml 元素节点 susing pig 脚本？

我正在使用piglatin进行大型XML转储。我正在尝试获取piglatin中location和temp_c等xml节点的值。该文件就像NOAA'sNationalWeatherServicehttp://weather.gov/http://weather.gov/images/xml_logo.gifNOAA'sNationalWeatherServicehttp://weather.gov15minutesafterthehour60UnknownStation51WH0LastUpdatedonDec232014,11:00pmLSTTue,23Dec201423:00:00+

susing java gt lt observation xml parsing hadoop apache-pig

hadoop - Pig Hive Hbase 之间有何不同

我是hadoop技术的新手。我想弄清楚这些PigHive和Hbase用于哪种类型的数据(结构化、非结构化、semo结构化)？在哪种情况下使用哪种工具最有效？最佳答案您应该从阅读最基本的Hadoop文档开始:http://hadoop.apache.org/#What+Is+Apache+Hadoop%3F然后，您可以在每个项目站点上找到最佳解释:ApachePig是一个用于分析大型数据集的平台，由用于表达数据分析程序的高级语言以及用于评估这些程序的基础架构组成。Pig程序的显着特性是它们的结构适合大量并行化，这反过来又使它们能够

何不 hadoop section apache 结构化 hive hbase apache-pig

hadoop - Pig MultiStorage 输出到单个文件

假设我有一些日志，比如key1somethingkey2somethingkey3something我可以使用PigMultiStorage根据键将记录输出到多个文件夹。但是在MultiStorage中有什么方法可以确保每个键输出只包含一个文件，而不是像multistorage那样包含多个小文件。最佳答案默认情况下，MultiStorage会将相同的key存储在单个文件中，因此您无需执行任何操作。在下面的示例中，不同的输入文件中有4个键，在使用MultiStorage选项存储键后，它将创建4个目录(key1,key2,key3a

MultiStorage hadoop key code strong apache-pig

hadoop - pig : How to save relation when "Scalar has more than two rows in the output"

因此，我正在处理一个包含http流量条目的日志文件。我正在尝试确定每个状态代码一天中每个小时的记录数。所以，我的想法输出是这样的:0(200,234)(201,100)(404,5553)1(200,2234)(201,1100)(404,53)....我有以下转换:e1=groupLINESBY(hour,statusCode);e2=foreache1generategroup.hour,group.statusCode,COUNT(LINES);e3=groupe2byhour;e4=foreache3{statusCount=foreache2generatestatusCod

amp relation strong code statusCode hadoop apache-pig

java - pig : Read a bag and emit individual tuples

我有以下数据包:({(key1,value1),(key1,value2)})({(key2,value1),(key2,value1)})上述数据存储在一个文件/关系中，它有两行数据，每行是一个包。有没有一种方法可以读取每个袋子并从袋子中发出每个元组？例如:我想在这里发出(键1，值1)(键1，值2)(键2，值1)(key2,value2)请帮忙。PIG快把我逼疯了:(:( 最佳答案 FLATTEN()应该可以解决问题:)http://pig.apache.org/docs/r0.12.1/basic.html#flatten

individual tuples section value key java hadoop mapreduce apache-pig

hadoop - 如果我只想将 HCatalog 与 Pig 和 MR 一起使用，是否需要安装 Hive？

想要使用HDP2.2发行版，但计划仅将Pig+MR用于我的ETL作业。希望使用HCatalog记录模式，但希望避免必须设置Hive。我需要它来拥有HCatalog吗？最佳答案由于HCatalog是Hive的一部分，是的，您需要安装Hive才能使用HCatalog。(引用https://hive.apache.org/javadocs/r1.0.0/api/hcatalog/core/index.html) 关于hadoop-如果我只想将HCatalog与Pig和MR一起使用，是否需要

HCatalog hadoop section https hive apache-pig

hadoop - 使用 Pig 脚本创建包含匹配和不匹配记录的文件

能否就以下文件匹配逻辑和使用Pig删除重复条目提出建议-1)根据关键RoleId删除重复条目-InputFile1--------------RoleIdName1A2B3C2D5E5F7GOutpufFile1(仅唯一记录)RoleIdName1A3C7GOutpufFile2(抓取重复记录)RoleIdName2B2D5E5F2)文件匹配键是RoleId-InputFile1InputFile2---------------------RoleIdNameRoleIdAge1A1202B2213C1224D2235E324725OutpufFile1(匹配记录)OutputFile

hadoop Pig strong code RoleId apache-pig

hadoop - 处理 PIG 脚本中的 fs(hadoop shell)命令错误

我有一个包含几个语句的PIG脚本。示例脚本:registerx.jar;fs-rmr;LOAD'X'AS(uuid:chararray,value:chararray);我正在调用fsshell来删除HDFS上的文件:fs-rmr如果存在则删除，否则继续。如果文件/目录不存在，脚本将退出并抛出错误:Nosuchfileordirectory我使用以下命令运行它:pig-ffilename.pig-paramparameter1=value"-f"强制停止它。如果我避免使用“-f”，我会收到以下错误:2015-02-0202:50:15,388[main]ERRORorg.apache.

hadoop shell code section parameter apache-pig hdfs

hadoop - Pig UDF 计算两个数的幂

我有一个pig脚本。Script.pig:register/home/cloudera/Desktop/Pow.jar#registeringthejarfileA=LOAD'/input.txt'usingPigStorage(',')as(a1:int,a2:int,name:chararray);#loadingtherelationB=foreachAgenerateA.a1,A.a2,Pow(A.a1,A.a2);#justgeneratingfield1,field2dumpB;#dumpingtheresult用于计算幂函数的javaUDF。importjava.io.I

hadoop Pig code section pre apache-pig

hadoop - 每年出版书籍频率的 Pig 脚本

我正尝试按照此链接上给出的步骤运行pig脚本-http://www.orzota.com/pig-tutorialfor-beginners/但我收到此错误。它无法读取加载到HDFS中的文件。你能帮忙吗？错误如下-FailedJobs:JobIdAliasFeatureMessageOutputsN/ABookXRecords,CountByYear,GroupByYearGROUP_BY,COMBINERMessage:UnexpectedSystemErrorOccured:java.lang.IncompatibleClassChangeError:Foundinterfaceo

hadoop Pig apache java apache-pig

37 38 394041 42 43