pig-without

hadoop - 如何在 Hadoop 中的机器之间传输文件并使用 Pig 搜索字符串

我有两个问题:我有一个很大的记录文件，有几百万条。我需要将此文件从一台机器传输到hadoop集群机器。我猜hadoop中没有scp命令(或者有？)如何将文件传输到hadoop机器？此外，一旦文件位于我的hadoop集群上，我想搜索包含特定字符串的记录，例如“XYZTechnologies”。pig八戒这是怎么做到的？一些示例代码可以帮助我抢先一步。这是我第一次使用Hadoop/Pig。如果这是一个“太基础”的问题，请原谅我。编辑1我尝试了Jagaran的建议，但出现以下错误:2012-03-1804:12:55,655[main]ERRORorg.apache.pig.tools.gr

何在 hadoop section PigStorage mapreduce apache-pig hdfs

hadoop - 有没有比在 Pig 中分组更好的处理静态列的方法？

我有很多非规范化数据，需要对其进行一些计算。大约有28列，其中1列是ID列，其中5列我需要求和，其余的我只需要报告即可。因此，对于单个ID，这些列中的22个始终相同。目前我正在对23列进行分组，然后对5列求和。在我看来，这可能有过度的开销。有更好的处理方法吗？这是初始加载后的脚本:grouped=GROUPinputDataBY(SITE_ID_COL,META_ID_COL,ITEM_ID_COL,SELLER_ID_COL,CATEGORY1_COL,CATEGORY2_COL,TOTAL_WATCH_COL,ITEM_TITLE_COL,AUCT_TYPE_COL,CURRENC

中分 hadoop COL section inputData apache-pig

hadoop - 将 Pig 与 Hbase 集成

我在linux上安装了hadoop-2.5.0、pig0.13.0和HBase0.98.6.1。尝试运行简单的pig脚本时，出现错误2014-10-1416:01:54,891[main]ERRORorg.apache.pig.tools.grunt.Grunt-ERROR2998:Unhandledinternalerror.org.apache.hadoop.hbase.util.Bytes.equals([BLjava/nio/ByteBuffer;)ZDetailsatlogfile:/home/labuser/pig_1413279561970.log粘贴下面的日志...Pi

hadoop Hbase apache TableName apache-pig

json - 将 JSON 数组加载到 Pig 中

我有一个格式如下的json文件[{"id":2,"createdBy":0,"status":0,"utcTime":"Oct14,20144:49:47PM","placeName":"21/F,CunninghamMainRd,SampangiRamaNagarBengaluruKarnatakaIndia","longitude":77.5983817,"latitude":12.9832418,"createdDate":"Sep16,20142:59:03PM","accuracy":5,"loginType":1,"mobileNo":"0000005567"},{"id"

json 34 NagarBengaluruKarnatakaIndia section hadoop apache-pig hdfs bigdata

hadoop - 无法使用 Pig FOREACH 显示数据

我在txt文件中有这个smaple数据集(格式:名字，姓氏，年龄，性别):(Eric,Ack,27,M)(Jenny,Dicken,27,F)(Angs,Dicken,28,M)(Mahima,Mohanty,29,F)我想显示年龄大于27岁的员工的age和firstname。在进行了相当多的操作并寻找一些指示后，我被卡住了:我正在使用以下方式加载此数据集:tuple_record=LOAD'~/Documents/Pig_Tuple.txt'AS(details:tuple(firstname:chararray,lastname:chararray,age:int,sex:char

FOREACH hadoop details code chararray mapreduce apache-pig bigdata

hadoop - 替换 pig 中的字符

我的数据采用以下格式..{"Foo":"ABC","Bar":"20090101100000","Quux":"{\"QuuxId\":1234,\"QuuxName\":\"Sam\"}"}我需要它采用这种格式:{"Foo":"ABC","Bar":"20090101100000","Quux":{"QuuxId":1234,"QuuxName":"Sam"}}我正在尝试使用Pig的替换功能以我需要的格式获取它..所以，我试过了.."LOGS=LOAD'inputloc'USINGTextStorage()asunparsedString:chararray;;"+"REPL1=fo

hadoop pig 34 code section apache-pig azure-hdinsight

hadoop - 配置单元 : The application won't work without a running HiveServer2

我是这个领域的新手。我正在检查CDH5.8快速启动VM以尝试一些基本的hive/impala示例。但是我遇到了一个问题，当我打开HUE时出现以下错误。我搜索了解决方案，但没有找到任何可以解决我的问题的方法。Configurationfileslocatedin/etc/hue/conf.emptyPotentialmisconfigurationdetected.FixandrestartHue.HiveTheapplicationwon'tworkwithoutarunningHiveServer2.我检查过，它已启动并正在运行。尝试重新启动服务和CDH，没有帮助。HiveServe

配置单 HiveServer2 code section pre hadoop cloudera cloudera-cdh hue cloudera-quickstart-vm

hadoop - 在 Pig Latin 中生成计数值

我想找出年龄在19到60岁之间的用户数量。下面是示例查询loadtable=load'/user/userdetails.txt'usingPigStorage(',')AS(name:chararray,age:int);filteredvalues=filterloadtableby(age>19ANDage我收到以下错误“无效的标量投影:已分组:需要从关系中投影列才能将其用作标量” 最佳答案您必须计算过滤后的值而不是分组。total=foreachgroupedgenerateCOUNT(filteredvalues);

中生 hadoop section filteredvalues grouped apache-pig

hadoop - Pig Latin 像这样获取 SUM() 函数的输出？

我有一些数据，比如(名字，分数)一个10乙25C15一个5一个36乙98C78C78乙12data=LOAD'demo.txt'usingPigStorage(',')as(name:chararray,score:int);groupScore=GROUPdatabyscore;totalscore=FOREACHgroupScoreGeneratedata.name,SUM(data.score);当我使用SUM()函数时，输出结果如下{(A)(A)(A),(51)}{(B)(B)(B),(135)}我想知道是否有任何我可以展示的东西{(A),(51)},这不是在每次出现时都重复“

hadoop Latin section code data mapreduce apache-pig

hadoop - Pig - FilterFunc 不接受整个元组

我的Pig的一个过滤器功能有问题。但首先，我会告诉你上下文。A=LOAD'pig/hado/start_extrait2.csv'USINGPigStorage(';')as(DAT_START:chararray,COD_IPUSER:chararray,NDI_START:chararray);hado_search_file=LOAD'pig/hado/recherche_hado.csv'USINGPigStorage(';')as(DATE_HADO:chararray,IP_RECHERCHEE:chararray);result2=JOINhado_search_file

FilterFunc hadoop chararray 00 section user-defined-functions bigdata apache-pig

24 25 262728 29 30