草庐IT

PARALLEL_CASE

全部标签

hadoop - PIG 中的 CASE 语句

我正在尝试根据几个条件从“geocode”中提取“vertex_code”:SUBSTRING(geocode,0,2)---->Code00-51---->0170---->0361-78---->04Else---->00现在获得的“code”值必须与“geocode”值(前缀)连接,并再次与末尾的00(后缀)连接以形成“vertex_code”例如:geocode=44556677如果SUBSTRING(geocode,0,2)在00-51之间,则code=01因此顶点代码=014455667700下面是我的脚本:item=load'/user/item.txt'USINGPig

hadoop - SET default_parallel 1;声明不适用于 pig

我是pig的新手,根据我的理解,SETdefault_parallel1语句应该生成一个输出文件,因为它将使用一个reducer。但是当我在下面的脚本中使用这个命令时,它给了我2个o/p文件。SETdefault_parallel1;A=LOAD'hdfs:/pigfldr/union1'usingPigStorage('')AS(sln:int);B=LOAD'hdfs:/pigfldr/union2'usingPigStorage('')AS(sln:int);C=UNIONA,B;STORECINTO'hdfs:/pigfldr/unionfres';

java - 在 hadoop 中实现 parallel-for

我想在hadoop上实现一个parallel-forin。基本上parallel-for接收一个子骨架(它可以是一个像map()这样的函数)和一个整数作为参数。子骨架将执行整数参数指定的次数。子骨架的一次调用的结果作为参数传递给子骨架的后续调用。最终,最后一个子骨架的结果作为并行结果提供。下面是Scandium库(http://skandium.niclabs.cl/)上的实现示例,我很乐意将此实现移植到hadoop上。*@paramTheinputandresulttypeofthe{@linkSkeleton}.**/publicclassForextendsAbstractSke

Hadoop PIG 输出未使用 PARALLEL 运算符拆分为多个文件

看来我错过了什么。我的数据上的reducer数量在HDFS中创建了那么多文件,但我的数据没有拆分成多个文件。我注意到的是,如果我对按顺序排列的键执行groupby它工作正常,就像下面的数据根据​​键很好地分成两个文件:1hello2bla1hi2works2end但是这个数据没有拆分:1hello3bla1hi3works3end我使用的代码对其中一个工作正常而对另一个工作不正常是InputData=LOAD'above_data.txt';GroupReq=GROUPInputDataBY$0PARALLEL2;FinalOutput=FOREACHGroupReqGENERATEf

sql - case 语句中的 Hive 摘要函数

我正在尝试编写一个简单的Hive查询:selectsum(casewhenpot_sls_q>2*avg(pit_sls_q)then1else0)/count(*)fromprd_inv_fnd.item_pot_slswheredept_i=43andclass_i=3wherep_wk_end_d=2014-06-28;这里pit_sls_q和pot_sls_q都是Hive表中的列,我想要pot_sls_q的记录比例超过平均值的2倍pit_sls_q。但是我得到错误:FAILED:SemanticException[Error10128]:Line1:95Notyetsuppor

regex - CASE WHEN - LIKE - Hadoop Hive 中的 REGEXP

我想使用CASEWHEN、LIKE和正则表达式在配置单元表中编写查询。我使用了regexp和rlike,但我没有得到想要的结果。到目前为止,我的尝试如下selectdistinctendingfrom(selectdate,ending,name,count(distinctid)from(selectCONCAT_WS("/",year,month,day,hour)asdate,id,name,casewhentype='TRAN'then'tran'wheneventsregexp'%[:]no_reply[:]%[^o][^n][:]incomplete[:]%'andtype

date - 带有 case 语句的 Hive 查询

我正在尝试在我的数据中使用一个名为priority的字段来驱动DATE_ADD函数的数值。从本质上讲,优先级决定了问题超出SLA的天数。我试图通过说来使用这个优先级:伪代码-Ifpriority=p0,DATE_ADD(date,INTERVAL1day)ElseIfpriority=p1,DATE_ADD(date,INTERVAL15day)这是我正在尝试的代码:SELECTjira.jiraidas`JIRA/FR`,jira.priorityas`Priority`,DATE_FORMAT(jira.created,"MM/dd/Y")as`DateJiraCreated`,D

hadoop - 如何在 pig 中使用 CASE 语句?

我需要以下输出。NE50SE80我正在使用pig查询来根据地区统计国家/地区。c1=groupcountrybyzone;c2=foreachc1generateCOUNT(country.zone),(casecountry.zonewhen1then'NE'else'SE');但我无法实现我的输出。我收到如下错误:2016-03-3013:57:16,569[main]ERRORorg.apache.pig.tools.grunt.Grunt-ERROR1039:(Name:EqualType:nullUid:null)incompatibletypesinEqualOperato

hadoop - 无法在配置单元查询中的 case 语句中聚合

我有如下数据:SELECTmtrans.merch_num,mtrans.card_numFROMa_sbp_db.merch_trans_dailymtransINNERJOINa_sbp_db.product_holdingphONmtrans.card_num=ph.acc_numINNERJOINa_sbp_db.cust_democdemoONcdemo.cust_id=ph.cust_idWHEREmtrans.transaction_dateLIKE'2017-09%'ANDperson_org_code='P'ANDROUND(DATEDIFF(mtrans.trans

hadoop - yarn : maximum parallel Map task count

Hadoop权威指南中提到了以下内容"Whatqualifiesasasmalljob?Bydefaultonethathaslessthan10mappers,onlyonereducer,andtheinputsizeislessthanthesizeofoneHDFSblock."但是在YARN上执行作业之前,它如何计算作业中没有映射器?在MR1中,映射器的数量取决于编号。输入split。YARN也一样吗?在YARN容器中是灵活的。那么有没有什么方法可以计算可以在给定集群上并行运行的最大映射任务数(某种严格的上限,因为它会让我粗略地了解我可以并行处理多少数据?)?