REGEX_EXTRACT

regex - 具有多行记录的文本文件的 Hive 外部表定义

我需要将此文件解析为一个配置单元表，该表是来自亚马逊的电影评论数据集。我在构建正则表达式以解析.txt文件并创建具有正确列类型的表时遇到问题。.txtproduct/productId:B0001G6PZCreview/userId:A3F3THLLZXURQNreview/profileName:A.Yreview/helpfulness:3/3review/score:4.0review/time:1199664000review/summary:Goodstory,Goodaction.GoodDrama.GoodMoviereview/text:WhenIfirstheardo

多行本文 NULL review 34 regex hadoop hive

REGEX：如何返回需要不同的正则匹配的匹配项？

我必须在JSON文件中转换TXT文件，因此我使用Regex来解析不同类型的数据。我想记录诸如名字，姓氏，生日和其他内容之类的数据。数据以这种方式格式化：/Indicator//[A-Z][a-z]+//[A-Z][a-z]+//[0-9]{2}\/[0-9]{2}\/[0-9]{4}/更具体的示例：IndicatorTomSmith01/01/2001因此，我知道我的信息是如何从哪里开始的（它总是以“指示器”开头），然后有一个名字，然后是姓氏，然后是生日，我也知道对这些数据类型的theRegex单独使用，而不是如何使用一起实施它们。这是我目前所做的，我怀疑它是最佳或推荐的：letfirst_n

匹配正则 code Indicator section

regex - 如何使用 RegexSerDe 将日志文件加载到 Hive 表中？

我有一个具有以下格式的日志文件，我想从中提取ip、datetime和uri并加载到表中。64.242.88.10--[07/Mar/2004:17:09:01-0800]"GET/twiki/bin/search/Main/SearchResult?scope=text&search=Joris%20*Benschop[^A-Za-z]HTTP/1.1"2004284我可以通过将日志文件行作为单个字符串加载到表中并使用regexp_extract来做到这一点。创建表日志(行字符串)；将数据本地inpath'.../mylog.log'加载到表日志中；选择regexp_extract(l

RegexSerDe regex code section regexp_extract hadoop hive

regex - 在 Hive 表中以 CSV 格式加载数据

我正在尝试将以下数据存储在csv文件中到Hive表中，但未能成功Ann,78%,7,Beth,81%,5,Cathy,83%,2,数据存在于CSV文件中。我使用以下定义在Hive中创建了表:Hive>CREATETABLEtest1(NameString,PercString,RankString)ROWFORMATSERDE'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'WITHSERDEPROPERTIES("input.regex"="^(\w+)\,(\w+)\%\,(\w+)$","output.format.string"

regex Hive section Null code csv hadoop

regex - Hive - 过滤不同的名称

我因过滤某些电影标题而陷入困境。我的问题是我有很多不同的电影标题，例如:Movies:Visitors:BreakingDawnPart1+2100BreakingDawn1+240BreakingDawn1+230DarkKnighttrilogy3D100DarkKnighttrilogy3D40DarkKnightTrilogyHDF30DarkKnightTrilogy-HDF100DarkKnighttrilogy_(blank)44etc.+10000所以有很多不同的电影标题，它们的名字并不唯一，并且在结尾处也有一些空格。我可以稍微解决这个问题，但是已经有很多标题，它们具有

regex Hive moviename section 3D hadoop filtering hiveql

Hive 中的 regexp_extract 参数

花括号中的参数在下面的代码段中有什么作用？regexp_extract(col_value,'^(?:([^,]*)\,?){1}',1)Id,regexp_extract(col_value,'^(?:([^,]*)\,?){2}',1)Score,regexp_extract(col_value,'^(?:([^,]*)\,?){9}',1)DisplayName, 最佳答案如您所见here，大括号包含前面标记的次数，在本例中为non-capturinggroup,可能会重复。该组包含一个(可能为空)capturinggrou

regexp_extract extract section regex apache hadoop hive

pig 的 REGEX_EXTRACT 不起作用

我想从每个字段的开头和结尾删除双引号'"'。我正在尝试在pig身上应用正则表达式，但似乎不起作用输入:(main_170521230001.csv,"9","2017-05-2123:00:01.472636")(main_170521230001.csv,"91","2017-05-2123:00:01.472636")(main_170521230001.csv,"592","2017-05-2123:00:01.472636")pig脚本:raw=LOAD'/data/csv'usingPigStorage(',','-tagFile')as(fn:chararray,gid:c

REGEX_EXTRACT EXTRACT 34 170521230001 code regex hadoop apache-pig

regex - 如何使用 Pig 识别数据中的 '\N' 字符

我的数据中出现了非常奇怪的字符“\N”。我想从数据中删除或替换这个字符。以下是数据示例:GirlsShoes,1325051884\N,\NMen'sShirts,\N分隔符:逗号(,)我尝试了几种方法来替换/识别这个\N字符但没有用。最佳答案在Pig中，位置符号用美元符号($)表示并以零(0)开头；例如，$0、$1、$2。因此，在上述数据中，第一个字段由$0标识(例如“女鞋”)，第二个字段由$1标识(例如1325051884)。以下脚本具有替换'\N'的逻辑:A=LOAD'/data.txt'USINGPigStorage('

amp regex code 39 section hadoop apache-pig

regex - 文件名的一部分作为 Hive 表中的列

我想将文件名的第一部分作为Hive表中的一列Myfilenameis:20151102114450.46400_Always_1446482638967.xml我在MicrosoftAzure的Hive中使用正则表达式编写了一个查询(查询下方)以获取它的第一部分，即20151102114450但是当我运行查询时，我得到的输出为20151102164358selectCAST(regexp_replace(regexp_replace(regexp_replace(CAST(CAST(regexp_replace(split(INPUT__FILE__NAME,'[_]')[2],'.x

regex Hive 39 section code azure hadoop hiveql

regex - 使用 RegexSerDe 在 Hive 中创建 DDL 时出错

我有分隔符为“,|”的数据。我按如下方式创建了配置单元DDL:CREATETABLEplayer_profile(player_idBIGINTCOMMENT'PlayerProfileIdentifier',change_tsSTRINGCOMMENT'ChangeDatetime',child_birth_yearINTCOMMENT'ChildBirthYear',countrySTRINGCOMMENT'CountryCode',)ROWFORMATSERDE'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'WITHSERDEP

时出中创 section apache RegexSerDe regex hadoop hive

46 47 484950 51 52