草庐IT

hadoop - 如何从 HDFS 运行 pig 脚本?

我正在尝试从hdfs运行pig脚本,但它显示错误,因为该文件不存在。我的hdfs目录[cloudera@quickstart~]$hdfsdfs-ls/Found11itemsdrwxrwxrwx-hdfssupergroup02016-08-1014:35/benchmarksdrwxr-xr-x-hbasesupergroup02017-08-1923:51/hbasedrwxr-xr-x-clouderasupergroup02017-07-1304:53/homedrwxr-xr-x-clouderasupergroup02017-08-2707:26/inputdrwxr-x

hadoop - 过滤命令在 Pig 中返回 0 条记录

A=LOAD'Batting.csv'USINGPigStorage(',');B=foreachAgenerate$0asid:int,$1asyear:int,$8asrun:int;C=FILTERBbyyear==1956;但是DUMPC返回0条记录。但文件中有1956年的记录。示例数据:playerID,yearID,stint,teamID,lgID,G,G_batting,AB,R,H,2B,3B,HR,RBI,SB,CS,BB,SO,IBB,HBP,SH,SF,GIDP,G_oldaardsda01,2004,1,SFN,NL,11,11,0,0,0,0,0,0,0,0

hadoop - 在 Pig 声明语句中转义括号

pig版本:0.12.0-cdh5.10.1我对使用pig还很陌生。我了解到有几种方法可以在pig中定义参数。其中之一是“声明”声明。只是想知道,我们是否可以在参数值中使用像“(”和“)”(括号)这样的字符。我试图在可能包含“(”和“)”字符的声明语句中保存几个(不同提要的变量)查找值,因此它抛出错误。我还尝试使用"\"和"\\"转义这些字符,但它似乎不起作用例如,在pig中运行以下语句:%declareDESC'Joe\\(sURL'尝试使用以下命令读取相同内容时出现以下错误:shecho$DESC错误:2018-02-2510:11:55,692[main]ERRORorg.apa

hadoop - PIG 中的字数统计

假设我有一个名为count.txt的文本文件,其中包含下面提到的段落IamworkinginhadoopalongwithvariouscourseslikeHadoop,Hana,JavaetcIloveworkingwithhadoopThisishadoopproject现在我需要得到hadoop这个词在上面的文件中出现了多少次下面的代码是我试过的c1=load'/...../count.txt'usingPigStorage(',')as(Name:chararray);c2=foreachc1generateFLATTEN(TOKENIZE(LOWER(Name)))as(N

hadoop - 在笔记本电脑上安装 Hadoop、Pig 和 Hive

我想在我的笔记本电脑上安装hadoop、pig和hive。我不知道如何安装和配置hadoop、pig和hive,也不知道需要什么软件。请告诉我在笔记本电脑中安装/配置Hadoop、Pig和Hive所需的确切步骤。我可以使用windows操作系统,我在windows操作系统中安装了hadoop 最佳答案 对于初学者,我建议坚持使用良好的预打包Hadoop发行版/沙箱。即使您想在使用Hadoop提供的工具(例如Hive等)之前学习如何设置Hadoop集群,至少在开始时设置一个公共(public)分布要容易得多。Hadoop的预打包沙箱将

hadoop - PIG 和 HIVE 可以称为独立的编程模型吗?

这个问题可能听起来很烦人,实际上可能与真正的编程没有任何关系。这是我与我的一位同事进行的一场小型辩论的衍生产品。他一直坚持认为HIVE和PIG可以称为单独的“编程模型”,因为当您在其中编写MapReduce作业时,您实际上不需要在MapReduce中思考-特别是如果您在HIVE中编程。从程序员的角度来看,MapReduce部分是完全抽象的。它完全类似于SQL。但我有点不同意,因为用这些语言编写的脚本最终最终会转换为多个mapreduce作业。因此,这些可以称为更高级别的编程语言来为同一模型编程。并且应该从等待处理的基础数据的角度而不是程序员的角度来看待编程模型这个词。你怎么看?

hadoop - 使用 Hadoop Pig 生成多个输出

我有这个文件,其中包含Hadoop中的数据列表。我构建了一个简单的Pig脚本,它通过idnumber等分析文件...我要寻找的最后一步是:我想为每个唯一的id号码创建(存储)一个文件。所以这应该取决于一个组步骤......但是,我还不知道这是否可能(也许有一个自定义商店模块?)。有什么想法吗?谢谢丹妮尔 最佳答案 同时牢记虚弱所说的话,MultiStorage,在PiggyBank中,似乎就是您要找的东西。 关于hadoop-使用HadoopPig生成多个输出,我们在StackOverf

hadoop - 如何使用 hadoop pig 流式传输已编译的 c 程序?

我在一个小型集群上测试了hadooppig。我已经成功地使用pig来流式传输perl、python、shell脚本甚至jars但不是c二进制文件!我只是用c构建了一个简单的HelloWorld程序并将其编译为测试然后在ubuntu11.04下使用./test运行它,并且g++编译器是最新的。程序在操作系统中完美运行。但是当我尝试在pig中流式传输它时,它总是失败!这是pig脚本:a=load('test.txt');definep`./test`ship('/home/clouduser/test');b=streamathroughp;dumpp;test.txt只包含一个空格并且我

mysql - 无法运行 PIG

安装Hadoop之后,我会安装Pig。但是,我有以下问题:当我尝试运行一只pig时,结果发现它的日志中存在障碍:coba@dewi-laptop:/home/dewi/Work2/pig-0.8.0-cdh3u0/bin$./pig2011-11-2310:15:20,865[main]INFOorg.apache.pig.Main-Loggingerrormessagesto:/home/dewi/Work2/pig-0.8.0-cdh3u0/bin/pig_1322018120859.log2011-11-2310:15:21,364[main]INFOorg.apache.pig

hadoop - apache pig 中的子查询

寻找有关在apachepig中编写子查询的帮助。例如我有以下两个关系-Asam12gradmathssony13postgradenglishBmaths{(4.5,sam),(4,david)}english{(4.2,peter),(3.9,rob)}按主题连接这两个关系,即A通过A.$3和B通过B.$0并且必须编写查询,其输出为-sam12gradmaths4.5sony13postgradenglish基本上它应该检查B中的匹配主题,然后在其中查找名称。 最佳答案 我的处理方式是flattenB关系,然后对A执行左外连接。首