FILTER_VALIDATE_REGEXP
全部标签 我正在尝试为每个组找到(max+min)/2。以下是我的架构UrlXpathsCount:{url:chararray,leafpathstr:chararray,urlpath_count:long}我正在尝试按url字段对其进行分组byUrl=GROUPUrlXpathsCountbyurl;我正在尝试通过以下方式找到(max+min)/2。midRangeByUrl=FOREACHbyUrl{urls_desc=orderUrlXpathsCountbyurlpath_countdesc;urls_max=limiturls_desc1;urls_asc=orderUrlXpat
我的表中有几行。这行看起来像:Atribute|---------------|B=10;MB=12;A=33|---------------|MB=16;B=12;A=23|---------------|A=10;MB=23;B=58|等等我只需要在“B=”之后获取数字。对于那个例子,我应该得到:101258为了得到这个结果,我应该写什么选择查询?(查询不应与'MB='和'B='混淆) 最佳答案 hive>selectregexp_extract('B=10\;AB=12\;B=33','(\;|^)B=([0-9]*)',2)
我正在尝试在ClouderaHue界面中运行一个配置单元查询,它可以很好地处理几百条记录。当我在更大的数据集上运行它时,它失败了。我试着在互联网上搜索它,但看起来有很多类似的错误,但不是我正在寻找的确切解决方案。我在我的配置单元查询中使用了redexp_replace,我认为这不会导致任何异常(我的印象是它可以轻松处理字符串和NULL类型)我得到的错误是java.util.regex.PatternSyntaxException:Unmatchedclosing')'nearindex12更新:这是导致问题的记录:columnA:ReadData(或ListDirectory)B列:列
前提是有一个像,,,这样的mapmap.文本[key1#v1][key2#v2][key3#v3]然后,如果我尝试查找“key2的值”,A=load‘map.text’as(M:map[]);B=foreachAgenerateM#'key2';C=filterBby$0!='';//togetridofemptyvaluelike(),(),().dumpC;还有其他方法可以找到key2吗?仅使用“过滤依据”。谢谢你。 最佳答案 不需要GENERATE一个字段,然后在FILTER中使用它;您可以将其包含在FILTER语句中,开
我正在尝试在HDInsight中实现JSONSerDe以处理JSON格式的文件。我读了HDInsightHivenotfindingSerDejarinADDJARstatement但是当尝试运行查询来创建表时,集群返回错误消息:returncode1fromorg.apache.hadoop.hive.ql.exec.DDLTaskCannotvalidateserde.org.openx.data.jsonserde.JsonSerDe此错误消息是什么意思?我该如何解决? 最佳答案 此错误通常意味着在当前类路径中找不到serde
我需要从配置单元中的一个字段中删除美元符号和大括号。示例数据:$210.53$210.53($390.53)($210.53)问题是有些记录有大括号,有些则没有。以下是我想出的语法:selectREGEXP_REPLACE(amount,'\(\$|\)','')asamountfromtablewhereid=1234;输出:$210.53$210.53390.53210.53此语法不会从没有大括号的记录中删除美元符号。有人可以指导我吗? 最佳答案 如果您想从字段中删除a)美元符号和b)括号,您需要编写涵盖这两种情况的正则表达式。
我是Pig脚本的新手。我想将多个参数传递给Pig过滤器UDF,但出现错误“无效的标量投影:需要从关系中投影列才能将其用作标量”我正在执行以下步骤。input=load'....';dumpinput;/*workingabletoseedata*/output=FILTERinputbynotFilterUDF(input,val1,val2);这没有用。所以我试着跟随。input=load'......';dumpinput;/*workingabletoseedata*/dataWithVal=FOREACHinputGENERATE$0,$1,val1,val2;dumpdata
我需要使用regex_extract从列中的字符串中提取数字。我在外部表上使用Impala。我已经检查了正则表达式,为了测试它,我还使用了regexp_like和regexp_replace。他们两个都工作得很完美。这里是查询:selectsucursal,regexp_like(sucursal,'^[0-9]{1,3}')asmatch,regexp_extract(sucursal,'^[0-9]{1,3}',1)asCodSucusal,regexp_replace(sucursal,'^[0-9]{1,3}','lala')asRepCodSucusalfromjdv.stg
我有一个过滤关键字列表(大约1000个),我需要使用这个列表过滤pig中的一个关系字段。最初,我将这些关键字声明为:%declarep1'.keyword1.';.......%declarep1000'.keyword1000.';我然后像这样进行过滤:Filtered=FITLERSRCBY(not$0matches'$p1')and(not$0matches'$p2')and......(not$0matches'$p1000');DUMP过滤;假设我的源关系在SRC中,我需要在第一个字段(即$0)上应用过滤。如果我将过滤器的数量减少到100-200,它工作正常。但随着过滤器数量
我通过Kerberos设置了一个具有安全性的Hadoop集群,Hive已经启用了Sentry。我对Hue-Hive(Beeswax)Editor有疑问。Hue无法在hive-server2日志中加载来自hive的数据和信息:2014-04-0311:36:39,814WARNthrift.ThriftCLIService(ThriftCLIService.java:GetSchemas(364))-Errorgettingcatalogs:org.apache.hive.service.cli.HiveSQLException:InvalidSessionHandle:SessionH