草庐IT

PIG_HOME

全部标签

hadoop - 删除 Pig 输出中的括号和逗号

目前我的输出如下:((130,1))((131,1))((132,1))((133,1))((137,1))((138,2))((139,1))((140,1))((142,2))((143,1))我想要这样:130113111321我的代码如下:A=LOAD'user-links-small.txt'AS(user_a:int,user_b:int);B=ORDERABYuser_a;grouped=COGROUPBBYuser_a;C=FOREACHgroupedGENERATECOUNT(B);D=COGROUPCBY$0;E=FOREACHDGENERATE($0,COUNT(

hadoop - PIG 设置抛出错误

我试图在我的Fedora20系统中安装PIGv0.13.0。提取tar.gz内容后,我为JAVA_HOME和PIG/bin设置了PATH。然后我在控制台中输入命令pig,这就是我得到的结果:无法理解出了什么问题:[root@localhost/]#pig14/12/2100:05:15INFOpig.ExecTypeProvider:TryingExecType:LOCAL14/12/2100:05:15INFOpig.ExecTypeProvider:TryingExecType:MAPREDUCE14/12/2100:05:15INFOpig.ExecTypeProvider:Pi

json - 使用 Pig 将 Json 数据转换为特定的表格格式

我有以下格式的Json文件:"Properties2":[{"K":"A","T":"String","V":"M"},{"K":"B","T":"String","V":"N"},{"K":"D","T":"String","V":"O"}]"Properties2":[{"K":"A","T":"String","V":"W”"},{"K":"B","T":"String","V":"X"},{"K":"C","T":"String","V":"Y"},{"K":"D","T":"String","V":"Z"}]我想使用pig从上面提到的json格式中提取表格格式的数据:预期格式

hadoop - 使用 Apache PIG 读取多行 JSON

我有一个JSON文件,想使用ApachePig读取。我尝试使用常规的JSONLOADER,但看起来JSONLOADER仅适用于单行JSON。然后我尝试使用Elephant-Bird。但我仍然无法正确看到结果。任何人都可以提出解决方案吗?输入:{"employees":[{"firstName":"John","lastName":"Doe"},{"firstName":"Anna","lastName":"Smith"},{"firstName":"Peter","lastName":"Jones"}]}注意:我不想将输入转换为单行。脚本:A=LOAD'input'USINGcom.t

hadoop - Apache PIG - 如何更改文件的标准输出名称 "part-r-00000"?

我有一个.pig脚本,它创建一个包含一些计算数据的文件。我想将输出文件命名为“result.txt”,而不是无意义的标准输出名称“part-r-00000”。我的.pig脚本中的最后一个条目是storeCinto'result'USINGPigStorage();因此,“result”是HDFS中应存储result.txt的文件夹的名称。我该怎么做? 最佳答案 part-r-XXXXX并非毫无意义,具体取决于您打算如何使用它们。如果您需要将这个pig脚本的结果加载到另一个pig脚本中,您可以这样做:A=LOAD'result'USI

hadoop - PIG 中加载的多个文件的多个输出

我的数据目录(路径:/home/admin/Desktop/data)中有50个文本文件。我的任务是扁平化(标记化)文本文件中的数据并将输出存储在50个输出文件中。以下是我为完成这项工作而建立的关系:--Thiswillloadallthe50textfiles.A=Load'/home/admin/Desktop/data'UsingPigStorage(',');--Thisrelationwillcreateeverywordasatokenandwillflattenthedata.B=FOREACHAGENERATEFLATTEN(TOKENIZE($0));STOREBin

hadoop - PIG 替换多列

我总共有大约150列,想搜索\t并用空格替换A=LOAD'db.table'USINGorg.apache.hcatalog.pig.HCatLoader();B=GROUPAALL;C=FOREACHBGENERATEREPLACE(B,'\\t','');STORECINTO'location';此输出生成所有唯一的单词作为输出。有没有更好的方法一次性替换所有列??谢谢尼维 最佳答案 您可以使用PythonUDF执行此操作。假设您有一些这样的数据,其中包含标签:数据:hitherefriend,whatsup,nothingmu

ubuntu - 无法从 $HIVE_HOME 以外的任何其他位置启动配置单元

我已经使用Derby10.12.1.1安装了Hive2.1.0我可以从以下位置运行Hive:$HIVE_HOME但是当我从另一个位置运行时,比如root或其他地方,它会抛出一个错误:Exceptioninthread"main"java.lang.RuntimeException:Couldn'tcreatedirectory$/tmp/98e1866e-f8c7-451d-b958-1f773f0c4b02_resourcesatorg.apache.hadoop.hive.ql.util.ResourceDownloader.ensureDirectory(ResourceDown

hadoop - PiG + Cassandra + Hadoop

我在Cassandra(3.7)集群上安装了Hadoop(2.7.2)。我对使用HadoopMapReduce没有任何问题。同样,我在CQLSH中创建表和键空间也没有问题。但是,我一直在尝试通过hadoop安装PIG,以便访问Cassandra中的表。(PIG的安装非常好)这就是我遇到问题的地方。我访问过很多网站,大多数要么是针对Cassandra的过时版本,要么就是含糊不清。我从该网站收集到的一件事是,我们可以使用CqlStorage/CqlNativeStorage加载访问pig中的cassandra表。但是,在最新版本中,似乎已删除此支持(自2015年起)。现在我的问题是,是否有

hadoop - Pig 命令问题 'Failed to read data from "/pigdata/student"'

在为关系运行dump命令时不返回任何记录,它给出:测试文件:学生vineet1hisham2raj3ajeet4sujit5ramesh6priya7priyanka8suresh9ritesh10计数器:Totalrecordswritten:0Totalbyteswritten:0SpillableMemoryManagerspillcount:0Totalbagsproactivelyspilled:0Totalrecordsproactivelyspilled:0但它包含一个数据,请帮我解决这个错误grunt>a=load'/pigdata/student';2016-08-0