草庐IT

regex_extract

全部标签

regex - Hive - 过滤不同的名称

我因过滤某些电影标题而陷入困境。我的问题是我有很多不同的电影标题,例如:Movies:Visitors:BreakingDawnPart1+2100BreakingDawn1+240BreakingDawn1+230DarkKnighttrilogy3D100DarkKnighttrilogy3D40DarkKnightTrilogyHDF30DarkKnightTrilogy-HDF100DarkKnighttrilogy_(blank)44etc.+10000所以有很多不同的电影标题,它们的名字并不唯一,并且在结尾处也有一些空格。我可以稍微解决这个问题,但是已经有很多标题,它们具有

Hive 中的 regexp_extract 参数

花括号中的参数在下面的代码段中有什么作用?regexp_extract(col_value,'^(?:([^,]*)\,?){1}',1)Id,regexp_extract(col_value,'^(?:([^,]*)\,?){2}',1)Score,regexp_extract(col_value,'^(?:([^,]*)\,?){9}',1)DisplayName, 最佳答案 如您所见here,大括号包含前面标记的次数,在本例中为non-capturinggroup,可能会重复。该组包含一个(可能为空)capturinggrou

pig 的 REGEX_EXTRACT 不起作用

我想从每个字段的开头和结尾删除双引号'"'。我正在尝试在pig身上应用正则表达式,但似乎不起作用输入:(main_170521230001.csv,"9","2017-05-2123:00:01.472636")(main_170521230001.csv,"91","2017-05-2123:00:01.472636")(main_170521230001.csv,"592","2017-05-2123:00:01.472636")pig脚本:raw=LOAD'/data/csv'usingPigStorage(',','-tagFile')as(fn:chararray,gid:c

regex - 如何使用 Pig 识别数据中的 '\N' 字符

我的数据中出现了非常奇怪的字符“\N”。我想从数据中删除或替换这个字符。以下是数据示例:GirlsShoes,1325051884\N,\NMen'sShirts,\N分隔符:逗号(,)我尝试了几种方法来替换/识别这个\N字符但没有用。 最佳答案 在Pig中,位置符号用美元符号($)表示并以零(0)开头;例如,$0、$1、$2。因此,在上述数据中,第一个字段由$0标识(例如“女鞋”),第二个字段由$1标识(例如1325051884)。以下脚本具有替换'\N'的逻辑:A=LOAD'/data.txt'USINGPigStorage('

regex - 文件名的一部分作为 Hive 表中的列

我想将文件名的第一部分作为Hive表中的一列Myfilenameis:20151102114450.46400_Always_1446482638967.xml我在MicrosoftAzure的Hive中使用正则表达式编写了一个查询(查询下方)以获取它的第一部分,即20151102114450但是当我运行查询时,我得到的输出为20151102164358selectCAST(regexp_replace(regexp_replace(regexp_replace(CAST(CAST(regexp_replace(split(INPUT__FILE__NAME,'[_]')[2],'.x

regex - 使用 RegexSerDe 在 Hive 中创建 DDL 时出错

我有分隔符为“,|”的数据。我按如下方式创建了配置单元DDL:CREATETABLEplayer_profile(player_idBIGINTCOMMENT'PlayerProfileIdentifier',change_tsSTRINGCOMMENT'ChangeDatetime',child_birth_yearINTCOMMENT'ChildBirthYear',countrySTRINGCOMMENT'CountryCode',)ROWFORMATSERDE'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'WITHSERDEP

【读点论文】PICK Processing Key Information Extraction from Documents...实体关系抽取,从图像数据抽取具有自然语义信息的结构化数据

PICK:ProcessingKeyInformationExtractionfromDocumentsusingImprovedGraphLearning-ConvolutionalNetworks研究问题定义关键信息抽取(KeyInformationExtraction,KIE)指的是是从文本或者图像中,抽取出关键的信息。针对文档图像的关键信息抽取任务作为OCR的下游任务,存在非常多的实际应用场景,如表单识别、车票信息抽取、身份证信息抽取等。然而,使用人力从这些文档图像中提取或者收集关键信息耗时费力,怎样自动化融合图像中的视觉、布局、文字等特征并完成关键信息抽取是一个价值与挑战并存的问题。

regex - 使用点 '.' 的拆分无法使用 hive -e ""即使在放置双斜线之后

我使用以下查询来解析以点('.')分隔的数据。从配置单元控制台触发时,以下查询工作正常。我得到了这样的正确值:v=WijimLM4Khb5YUVrh7kl4bOWxYtIOtZwTRJ13977555161397755721139775573919但是当我使用hive-e""使用相同的查询时。它无法解析数据,解析列结果为空。nullnullnullnullnullnullnull查询:selectsplit(regexp_extract(cookie,'v=[^&\n\;\"]*',0),'\\.')[0],split(regexp_extract(cookie,'v=[^&\n\;\

PostgreSQL | EXTRACT / DATE_PART | 获取时间的年月日等字串

extractEXTRACT函数是PostgreSQL中用于从日期和时间类型中提取特定部分(如年、月、日、小时等)的函数。格式EXTRACT(fieldFROMsource)--field参数是要提取的部分,例如YEAR、MONTH、DAY、HOUR等。--source参数是包含日期或时间的表达式。示例例如,要从当前日期时间中提取年\月\日\,可以使用以下查询:SELECT EXTRACT(YEARFROMCURRENT_TIMESTAMP) AScurrent_year, EXTRACT(MONTHFROMCURRENT_TIMESTAMP) AScurrent_month, EXTRACT

hadoop - EMR : how to include semicolon in regex argument of EXTRACT function 上的 pig

我正在处理Pig中的一些数据,其中包括感兴趣的字符串,可以选择用分号分隔并以随机顺序排列,例如test=12345;foo=bartest=12345foo=bar;test=12345以下代码应提取测试“键”的字符串值:blah=FOREACHdataGENERATEFLATTEN(EXTRACT(str_of_interest,'test=(\\S+);?'))AS(test:chararray);但是,在运行代码时,我遇到了以下错误:mismatchedcharacter''expecting'''2013-04-1604:46:05,245[main]ERRORorg.apac