草庐IT

information-extraction

全部标签

Hive 中的 regex_extract

我有字符串列,我想要第一个分号后的数据列数据:Options;list:direct&ACFs:Sharemarket我希望输出为list:direct&ACFs:股票市场我试过这个选项选择(regexp_extract(property,'^(?:([^;]*)\;?){2}',1))结果输出为list:direct&如何在第一个分号之后填充完整的字符串,就像我的输出一样list:direct&ACFs:股票市场有人能帮帮我吗? 最佳答案 你可以试试这个selectregexp_extract('Options;list;d

regex - 当 regexp_like 和 regexp_extract 工作正常时,Impala regexp_like 查询返回 null

我需要使用regex_extract从列中的字符串中提取数字。我在外部表上使用Impala。我已经检查了正则表达式,为了测试它,我还使用了regexp_like和regexp_replace。他们两个都工作得很完美。这里是查询:selectsucursal,regexp_like(sucursal,'^[0-9]{1,3}')asmatch,regexp_extract(sucursal,'^[0-9]{1,3}',1)asCodSucusal,regexp_replace(sucursal,'^[0-9]{1,3}','lala')asRepCodSucusalfromjdv.stg

hadoop - 如何使用 Hive 显示 Information Schema?

有什么方法可以使用Hive实现information_schema吗?另外,在Hive中进行数据分析的过程是什么?在SQL中,我们使用Information_Schema的示例如下:SELECT*FROMINFORMATION_SCHEMA.TABLES; 最佳答案 information_schema没有在Hive中实现,有一个openJIRA对于相同的。默认情况下,Hive使用Derby作为Metastore来存储表元数据。通过连接到Derby,可以看到系统表。 关于hadoop-如

regex - 配置单元查询 regexp_extract

我正在尝试从“[223.104.227.42]”中提取IP地址。我想提取“[”和“]”之间的223.104.227.42,我正在使用这个查询:selectregexp_extract('[223.104.227.42]','\\[(.*?)\\]')但是我得到一个错误:FAILED:Infunctionregexp_extract,patternmusthasonegroupreferenceatleast. 最佳答案 尝试将捕获组索引指定为参数(1):hive>selectregexp_extract('[223.104.227.

regex - 使用 REGEXP_EXTRACT 没有给出预期的结果 - Hive

我正在尝试在Hive中使用REGEXP_EXTRACT函数从列中获取所需的字符串。列中数据的形式为:单词\more_words我需要提取\之后的字符串部分。我试着做这样的事情:SELECTREGEXP_EXTRACT('words\more_words','(.*)(\\+)(.*)',3)->不返回任何内容SELECTREGEXP_EXTRACT('words\more_words','.*(\\+)(.*)',2)->不返回任何内容SELECTREGEXP_EXTRACT('words\more_words','\w+(\\+)(\w+)',2)->什么都不返回SELECTREGE

hadoop - 配置单元 2.3.3 MetaException(消息 :Version information not found in metastore.)

我有Hive2.3.3和Hadoop3.1.0。我可以在终端上使用hive命令启动Hive,但是当我尝试创建表时,我收到以下错误:user$hivereadlink:illegaloption--fusage:readlink[-n][file...]SLF4J:ClasspathcontainsmultipleSLF4Jbindings.SLF4J:Foundbindingin[jar:file:/Users/caiocesare/Desktop/hive/lib/log4j-slf4j-impl-2.6.2.jar!/org/slf4j/impl/StaticLoggerBinde

Hadoop:为什么我在 Namenode Information Web 中收到 "Max Non Heap Memory is -1 B."消息?这是什么意思?

我有一个使用VirtualBox制作的Hadoop2.6.5集群(一个主节点用作名称节点和数据节点,两个从节点)(easch节点安装了Xubuntu16.04)。先验,安装是正确的,因为我运行了一个wordcount示例并且没问题。在master:50070(我看到名称节点信息的地方),我得到这个:"MaxNonHeapMemoryis-1B."你知道这是什么意思吗?我找不到答案,我想检查一下,因为在运行wordcount之后我尝试运行我自己的程序但它没有成功,尽管它在我的Hadoop单节点安装中运行正常。我希望清楚,如果您需要更多信息,请告诉我。谢谢! 最

hadoop - Pig Latin 中的 STRSPLIT 和 REGEXP_EXTRACT_ALL

我有以下文件:File----12-3John1215-1Sam122该文件是制表符(\t)分隔的。我将行加载为line:chararray,因为我希望数据不会在各个字段中拆分。现在,我想提取详细信息(12-3和5-1)并将其存储为单独的数据。我正在尝试使用STRSPLIT和REGEX_EXTRACT_ALL,但数据似乎不匹配。splitdata=FOREACHfiledata{regex=REGEX_EXTRACT_ALL(line,'^([0-9]*)\\-([0-9]*)');split=STRSPLIT(line,'\\t',1);GENERATEregex,split;};这

hadoop - Apache Hive regexp_extract UDF

我在ApacheHive中遇到一段代码,如regexp_extract(input,'[0-9]*',0),有人可以向我解释这段代码的作用吗?谢谢 最佳答案 来自theHivemanualDDL,它返回使用模式提取的字符串。例如regexp_extract('foothebar','foo(.*?)(bar)',2)返回bar。index参数是捕获组,它是一个整数,可以取以下值:0:整个比赛,在我的例子中是foothebar1:第一组,在我的例子中是the2:第二组,在我的例子中是barn:第n组。如果n大于正则表达式中定义的实际组

regex - 如何使用 Hive REGEXP_EXTRACT() 函数删除非字母数字或非数字字符

我一直在尝试弄清楚如何删除多个非字母数字或非数字字符,或者仅返回字符串中的数字字符。我试过:SELECTregexp_extract('X789','[0-9]',0)FROMtable_name但它返回“7”,而不是“789”。我还尝试使用NOTMATCH语法删除非数字字符^((?!regexp).)*$:SELECTREGEXP_REPLACE('X789','^((?![0-9]).)*$','')FROMjav_test_iiregexp_extract能否返回多个匹配项?我真正想做的是清理我的数据,使其只包含数字或字母数字字符。这似乎有助于删除坏字符,但它不是像[0-9]这样