草庐IT

regex-compat

全部标签

regex - Hive with Regex SerDe 拆分行,每个单词成为一列

我正在尝试使用正则表达式SerDe从文本文件创建配置单元表。我开始很容易,只想将文本文档中的每个单词解析成一行。每行有一列,就是单词。我使用的正则表达式是([a-zA-z]+)这是我向hive发出的创建表命令的后半部分,行格式SERDE'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'WITHSERDEPROPERTIES("input.regex"="([a-zA-Z]+)","output.format.string"="%1$s")存储为文本文件;目前该表几乎全部为NULL。任何帮助都会很棒,谢谢! 最

regex - Hive 如何使用 < 和 > 符号处理正则表达式?

我是sivaRamanjaneyulu,我正在研究hive。我遇到了配置单元的以下问题示例日志:CREATETABLEsample4(num1STRING)ROWFORMATSERDE'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'WITHSERDEPROPERTIES("input.regex"="","output.format.string"="%1$s")STOREDASTEXTFILE;LOADDATALOCALINPATH"../hive-0.9.0/sample.log"INTOTABLEsample4;select*f

regex - 来自包含双引号的命令行的 Hive 查询

我如何使用hive-e"QUERY"语法编写以下查询。查询本身的原因包含双引号和%。createexternaltabletmp2(logdatestring,timestring,computernamestring,clientipstring,uristring,qsstring,localfilestring,statusstring,refererstring,w3statusstring,sc_bytesstring,cs_bytesstring,w3wpbytesstring,cs_usernamestring,cs_user_agentstring,time_local

regex - Hive 正则表达式将字符串拆分为两个不同的字段

我的记录是这样的:0x0000110PPPP111KZY0H123456789XYZ000000000000000000607532030000607532000060753203002014101707199999我正在寻找一个正则表达式,我可以在其中将前3个字符0x0拆分为配置单元表中的一个字段,其余000110PPPP111KZY0拆分为第二个字段,依此类推定长文件,无分隔符。 最佳答案 我没有使用hadoop或hive的经验,但是以下正则表达式将与我相信您正在寻找的内容一起使用。/(\dx\d)(.*)/这会将0x0捕获/拆

maven - 需要将 flink-hadoop-compatibility-2.10 jar 显式复制到 EMR 集群上的 ${FLINK-HOME}/lib 位置

我目前正在开发一个Flink应用程序,该应用程序使用一些Hadoop依赖项将数据写入S3位置。在本地环境中它运行良好,但是当我在EMR集群上部署这个Flink应用程序时,它抛出了与兼容性问题相关的异常。我得到的错误信息是java.lang.RuntimeException:无法加载类“org.apache.hadoop.io.Writable”的TypeInformation。您可能缺少“flink-hadoop-compatibility”依赖项。在org.apache.flink.api.java.typeutils.TypeExtractor.createHadoopWritab

regex - 在 Hive 中处理正则表达式中的多个匹配项

我想在Hive的表达式中解析负十进制值,我编写了以下正则表达式,selectregexp_extract("abcsdfghj-117.3700631&poikse-118.244&",'([-][1-9][0-9]*[.][0-9]+)&*')asoutput虽然正则表达式似乎运行良好,但它只给出了它的第一个匹配项。是否可以让配置单元给出所有可能的组合?hive中是否有任何函数可以返回所有匹配项?我用谷歌搜索了这个,但没有找到任何答案。任何帮助将不胜感激谢谢 最佳答案 将每个{prefix}{number}&替换为,{number

java - 使用java读取HDFS中的文件并通过regex匹配多行 block

我正在使用日志分析工具。我在Hadoop中使用YARN日志聚合功能。当我执行此操作时,Hadoop日志文件太大,以至于某些API方法无法将文件内容完全读入内存。我想匹配文件中的多行block,其中第一行包含字符串[map]而最后一行包含[\map]-我认为我可以基于正则表达式来做到这一点。常用的BufferedReader无法满足我的要求。我的问题是:是否有另一种方法可以逐行检查文件,检查那些与我的正则表达式匹配的内容?附言我真的不想将文件拆分成多个较小的文件来处理,因为我担心这会导致找不到某些匹配的内容,因为我可能会在匹配block的中间拆分文件。以下是日志文件的片段-我想要[MAP

regex - Hive - 多个字符串的 regexp_replace 函数

我正在使用配置单元0.13!我想在我的数据中找到多个标记,如“hiphop”和“rockmusic”,并将它们替换为“hiphop”和“rockmusic”——基本上替换它们时没有空格。我在配置单元中使用了regexp_replace函数。下面是我的查询,它适用于上述2个示例。droptablevp_hiphop;createtablevp_hiphopasselectuserid,ntext,regexp_replace(regexp_replace(ntext,'hiphop','hiphop'),'rockmusic','rockmusic')asntext1fromvp_nlp

regex - 使用 REGEX 在 Hive Create 和 Load Query 中获取空值

我有一个日志文件,我需要在其中使用REGEX存储数据。我尝试了下面的查询,但加载了所有NULL值。我已经用http://www.regexr.com/检查了正则表达式,它对我的​​数据工作正常。CREATEEXTERNALTABLEIFNOTEXISTSavl(imeiSTRING,packetSTRING)ROWFORMATSERDE'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'WITHSERDEPROPERTIES("input.regex"="(IMEI\\s\\d{15}(\\b(\\d{15})([A-Z0-9]+)))"

已解决:ModuleNotFoundError: No module named ‘flask._compat‘

?个人简介?作者简介:大家好,我是阿牛,全栈领域新星创作者。??支持我:点赞?+收藏⭐️+留言??系列专栏:flask框架从入门到实战??格言:要成为光,因为有怕黑的人!?相信很多人在flask项目中都遇到了这个报错:ModuleNotFoundError:Nomodulenamed‘flask._compat’,首先我要说的是你遇到了这个报错,说明你正在搭建可靠的flask项目脚手架,因为这个报错不是来源于flask框架本身,而是他的第三方扩展flask_script!flask-script是一个命令行管理器,可以通过命令来启动Flask应用,结合它构建的flask脚手架可以像django