草庐IT

PIG_HOME

全部标签

hadoop - 如何从 pig map 中获取变量键的值?

有没有一种方法可以使用字段作为键来获取变量键的映射值?例如:我的公司数据有这样的语言环境和名称字段{"en_US",(["en_US":"EnglishName"],["fr_FR":"FrenchName"])}我本质上想要的是使用语言环境作为键来获取map的值,因为它会因不同的语言环境而不同。company_data=load'/data'usingPigStorage();final_company_data=FOREACHcompany_dataGENERATEvalue.localeaslocalevalue.name#locale;下面给出了一个错误,因为我知道要从map中

hadoop - pig ,如何在加入和分组后引用字段

我在Pig中有这段代码(win、请求和响应只是直接从文件系统加载的表):win_request=JOINwinBYbid_id,requestBYbid_id;win_request_response=JOINwin_requestBYwin.bid_id,responseBYbid_id;win_group=GROUPwin_request_responseBY(win.campaign_id);win_count=FOREACHwin_groupGENERATEgroup,SUM(win.bid_price);基本上我想在加入和分组后对bid_price求和,但出现错误:Could

hadoop - 使用 PIG 计算平均值

我是PIG的新手,想计算我的一列数据的平均值010.120.1304050607080.1我写了这个pig脚本dividends=load'myfile.txt'as(A);dumpdividendsgrouped=groupdividendsbyA;avg=foreachgroupedgenerateAVG(grouped.A);dumpavg它将数据解析为(0)(10.1)(20.1)(30)(40)(50)(60)(70)(80.1)但平均给出这个错误2013-03-0415:10:58,289[main]ERRORorg.apache.pig.tools.grunt.Grunt

hadoop - 使用 PIG 加载文件

我是PIG的新手,我遇到了一个非常基本的问题。我有一行代码,上面写着:A=load'Sites/trial_clustering/shortdocs/*'AS(word1:chararray,word2:chararray,word3:chararray,word4:chararray);其中每个文件基本上都是一行4个逗号分隔的单词。然而,PIG并没有将其拆分为4个词。当我转储A时,我得到:(Money,coins,loans,debt,,,)我尝试使用谷歌搜索,但似乎无法找到我的文件需要采用何种格式,以便PIG能够正确解释它。请帮忙! 最佳答案

Hadoop 中未设置 JAVA_Home

我是hadoop的初学者,并尝试在我的Ubuntu中将hadoop作为单节点集群安装和运行。这是我的hadoop_env.sh中的JAVA_HOME#Thejavaimplementationtouse.exportJAVA_HOME=/usr/lib/jvm/java-7-openjdk-i386/exportHADOOP_CONF_DIR=${HADOOP_CONF_DIR:-"/etc/hadoop"}但是当我运行它时出现以下错误-Startingnamenodeson[localhost]localhost:Error:JAVA_HOMEisnotsetandcouldnotb

hadoop - 仅加载 PIG 中的特定字段?

这是我的文件:Col1、Col2、Col3、Col4、Col5我只需要Col2和Col3。目前我正在这样做:a=load'input'as(Col1:chararray,Col2:chararray,Col3:chararray,Col4:chararray);b=foreachagenerateCol2,Col3;有没有办法直接加载Col2和Col3而不是加载整个input然后generate必填列? 最佳答案 您只GENERATE您想要的列的方法是一种按照您的要求进行操作的有效方法。请记住,您的所有数据都存储在HDFS上,并且在

hadoop - hadoop 从哪里获取 JAVA_HOME 变量值?

我已经正确设置了JAVA_HOME,当我echo时,我看到了正确的值:$echo$JAVA_HOME/usr/lib/jvm/java-6-openjdk-amd64/我还将JAVA_HOME值放入hadoop-env.sh。$grepJAVA_HOMEconf/hadoop-env.sh#TheonlyrequiredenvironmentvariableisJAVA_HOME.Allothersare#setJAVA_HOMEinthisfile,sothatitiscorrectlydefinedonexportJAVA_HOME="/usr/lib/jvm/java-6-ope

Hadoop、Hive、Pig、HBase、Cassandra——什么时候用什么?

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭8年前。Improvethisquestion首先,我对大数据和Hadoop世界还比较陌生,而且我刚刚开始对Hortonworks沙箱(到目前为止的Pig和Hive)进行一些试验。我想知道在什么情况下可以使用上面提到的Hadoop、Hive、Pig、HBase和Cassandra这些工具?在我的沙箱环境中,只有一个9MB的文件,Hive和Pig的响应时间为几秒到几分钟。这在某些情况下显然不可用,例如Web应用程序(除非是其他情况,例如

database - 一种将结果从 Pig 导出到数据库的方法

有没有办法将Pig的结果直接导出到mysql之类的数据库中? 最佳答案 在牢记orangeoctopus所说的同时(提防DDOS...),您是否看过DBStorage?data=LOAD'...'AS(...);...STOREdataINTODBStorage('com.mysql.jdbc.Driver','dbc:mysql://host/db','INSERT...'); 关于database-一种将结果从Pig导出到数据库的方法,我们在StackOverflow上找到一个类似的

hadoop - 加载数据时 pig 出错

我使用的是ubuntu12.0232bit并且已经成功安装了hadoop2.2.0和pig0.12。Hadoop在我的系统上运行正常。但是,每当我运行这个命令时:data=load'atoz.csv'usingPigStorage(',')as(aa1:int,bb1:int,cc1:int,dd1:chararray);dumpdata;我收到以下错误:ERRORorg.apache.hadoop.mapreduce.lib.jobcontrol.JobControl-Errorwhiletryingtorunjobs.java.lang.IncompatibleClassChang