草庐IT

PIG_HOME

全部标签

hadoop - pig 错误 2118 : Input path does not exist

我正在运行简单的pig脚本,但它一直在抛出异常,说;org.apache.pig.backend.executionengine.ExecException:ERROR2118:输入路径不存在相信我路径是绝对正确的(根据我的理解),我尝试在本地文件系统和MapReduce模式下使用相同的数据,但没有区别。 最佳答案 我得到了解决,背后的原因是,关系名称和指定的路径/文件夹具有相同的名称,在这种情况下它不会迭代子文件夹或目录并产生这样的错误:) 关于hadoop-pig错误2118:Inp

java - 在 hadoop 作业结束后运行 pig 作业时的 GC 开销

我正在运行一个非常简单的pig脚本(pig0.14,Hadoop2.4):customers=load'/some/hdfs/path'usingSomeUDFLoader();customers2=foreach(groupcustomersbycustomer_id)generateFLATTEN(group)ascustomer_id,MIN(dw_customer.date)asdate;storecustomers2into'/hdfs/output'usingPigStorage(',');这将启动约60000个映射器和999个缩减器的map-reduce作业。在map-r

apache - 支持 Hive、Sqoop 和 Pig

ApacheAtlas是否支持Spark、Pig和Sqoop的标签?如果Atlas支持Pig、Sqoop和Spark,那么是否有任何类型的定制我们必须执行才能使其在Atlas中运行。如果我们想实现上述内容,我们可以从那里获得确切的过程带有Atlas的Hadoop组件。Atlas在哪里存储元数据?我们如何获得Atlas元数据的架构。Atlas是否提供为其他工具(例如Informatica)并将其与自己的元数据集成?如果Atlas支持上述功能,那么我们如何集成informatica使用Atlas元数据。 最佳答案 问题1:可以在http

hadoop - 在 pig 中,如何计算包含特定字符串的行数?

假设我有一组目标词:abcd和一个输入文件:adfsge12399cadifa2那么我应该返回:a3b0c1d2我怎样才能在pig身上做到这一点?谢谢! 最佳答案 首先从每行中删除重复的单词,然后运行单词统计。pig步:REGISTER'udf-1.0-SNAPSHOT.jar'definetuple_setcom.ts.pig.UniqueRecords();data=load''usingPigStorage();removeduplicatewordsfromeachlineunique=foreachdatagenerate

hadoop - 使用 Pig 计算每行中的单词出现次数

我有一组包含许多不同字段的推文raw_tweets=LOAD'input.tsv'USINGPigStorage('\t')AS(tweet_id,text,in_reply_to_status_id,favorite_count,source,coordinates,entities,in_reply_to_screen_name,in_reply_to_user_id,retweet_count,is_retweet,retweet_of_id,user_id_id,lang,created_at,event_id_id,is_news);我想找出每个日期最常用的词。我设法按日期对

hadoop - 如何在 pig 中创建 UDF 以根据另一个字段对列进行分类

我想在pig中使用UDF相对于另一列对一列进行分类。我有数据Id,name,age1,jhon,312,adi,153,sam,254,lina,28预期输出1,jhon,31,30-352,adi,15,10-153,sam,25,20-254,lina,28,25-30请推荐 最佳答案 您可以在没有UDF的情况下执行此操作。假设您已将数据加载到关系A。B=FOREACHAGENERATEA.Id,A.name,A.age,(A.age%5==0?A.age-5:(A.age/5)*5)aslower_age,(A.age%5==

python - Pig Hadoop Stream 帮助

我在运行pig流媒体时遇到问题。当我启动一个交互式pig实例时(仅供引用,我正在通过SSH/Putty在交互式pigAWSEMR实例的主节点上执行此操作)只有一台机器我的pig流媒体工作完美(它也适用于我的WindowsClouderaVM镜像).但是,当我切换到使用多台计算机时,它只是停止工作并出现各种错误。注意:我能够在多计算机实例上毫无问题地运行没有任何流命令的Pig脚本。我所有的pig工作都是在pigMapReduce模式下完成的,而不是–x本地模式。我的python脚本(stream1.py)在上面有这个#!/usr/bin/envpython下面是我到目前为止尝试过的选项的

hadoop - 错误 : Failed to create Data Storage while running embedded pig in java

我写了一个简单的程序来测试java中的嵌入式pig在mapreduce模式下运行。我运行的服务器hadoop版本是0.20.2-cdh3u4a,pig版本是0.10.0-cdh3u4a。当我尝试在本地模式下运行时,它运行成功。但是当我尝试以mapreduce模式运行时,它给了我错误。我使用以下命令运行我的程序,如http://pig.apache.org/docs/r0.9.1/cont.html#embed-java中所示javac-cppig.jarEmbedPigTest.javajavac-cppig.jar:.:/etc/hadoop/confEmbedPigTest.jav

hadoop - PIG - HBASE - 类型转换值

我正在使用PIG处理HBase表中的行。HBase表中的值存储为字节数组。我不知道我是否必须编写一个将字节数组转换为各种类型的UDF,或者pig是否会自动执行此操作。我有以下脚本:raw=LOAD'hbase://TABLE'USINGorg.apache.pig.backend.hadoop.hbase.HBaseStorage('CF:I')AS(product_id:bytearray);ids=FOREACHrawGENERATE(int)product_id;dumpids;我得到一个括号'()'的列表。根据docs,它应该工作。我检查了hbaseshell中的值它们都是va

hadoop - 我可以将 pig.temp.dir 设置为/user/USERNAME/tmp/pig 吗?

Hive可以配置为hive.exec.scratchdir=/user/${user.name}/tmp/hive我可以用Pig做类似的事情吗?我已尝试修改pig.properties文件,但似乎没有任何效果。pig.temp.dir=/user/${user.name}/tmp/pig我可以用别名替换pig命令,但我希望将更改写入配置文件。pig-Dpig.temp.dir=/user/`whoami`/tmp/pig谢谢!更新:我们决定将/tmp/用于生产系统。这是一个问题的原因是因为我们正在运行MapR,它似乎试图将临时目录放入用户目录,并在Hive上成功,但在Pig上却没有。