草庐IT

regex_iterator

全部标签

regex - 使用水槽拦截器逐行过滤文件

我正在尝试配置一个从.csv或.xl3读取的水槽代理。文件示例:ClientAClientBStart-timeEnd-timeDurationStatus358625153695845216/01/201716/01/201710good324569882258369416/01/201716/01/201705good359684783698572416/01/201716/01/2017324569882258369416/01/201716/01/201701good我希望代理逐行过滤文件。如果Duration不为空,则事件将发送到hdfs/usr/admin/Good_Cal

regex - Hadoop Hive SerDe Row Format for String Quoted Space delimited file

我正在尝试为具有以下格式的日志文件创建一个Hive表。日志文件:#Software:1#Version:1#Start-Date:xx#Date:xx#Fields:datetimetime-takenc-ipcs-usernamecs-auth-groupx-exception-idsc-filter-resultcs-categoriescs(Referer)sc-statuss-actioncs-methodrs(Content-Type)cs-uri-schemecs-hostcs-uri-portcs-uri-pathcs-uri-querycs-uri-extensionc

regex - 当 regexp_like 和 regexp_extract 工作正常时,Impala regexp_like 查询返回 null

我需要使用regex_extract从列中的字符串中提取数字。我在外部表上使用Impala。我已经检查了正则表达式,为了测试它,我还使用了regexp_like和regexp_replace。他们两个都工作得很完美。这里是查询:selectsucursal,regexp_like(sucursal,'^[0-9]{1,3}')asmatch,regexp_extract(sucursal,'^[0-9]{1,3}',1)asCodSucusal,regexp_replace(sucursal,'^[0-9]{1,3}','lala')asRepCodSucusalfromjdv.stg

regex - 使用 csv 格式的非结构化 GPS 数据包创建结构化 hive 表

我有一个如下所述的csv文件。VTS,51,0071,9739965515,NM,GP,INF01,V,19,072219,291014,0000.0000,N,00000.0000,E,07AEVTS,01,0097,9739965515,SP,GP,18,072253,V,0000.0000,N,00000.0000,E,0.0,0.0,291014,0000,00,4000,11,999,169,B205VTS,51,0071,9739965515,NM,GP,INF01,V,18,072311,291014,0000.0000,N,00000.0000,E,C24EVTS,01

java - Spark : Read Iterate on 2 files

我需要一些有关Spark+Java编程的帮助。这是我的问题:我在hdfs中有一个大文件,名为A,另一个大文件名为B。基本上,我需要同时迭代第一个(A)和第二个(B)。我的意思是这样的(这是伪代码):a=read.A;//ReadrecordfromAb=read.B;//ReadrecordfromBwhile(a!=EOF){if(a>b){b=read.B;//WriteOutputinsomeway}else{a=read.A;//Writeoutputinsomeway}}是否可以使用Spark+Java做类似的事情? 最佳答案

scala - 如何将 Scalding TypedPipe 转换为 Iterator

在我的Scaldinghadoop作业中,我在管道上有一些分组逻辑,然后我需要处理每个组:valgeorecs:TypedPipe[GeoRecord]=getRecordsgeorecs.map(r=>(getRegion(r),r)).groupBy(_._1).mapValueStream(xs=>clusterRecords(xs)).values.write(out)在clusterRecords内部,我需要将传入的迭代器转换为TypedPipe,以便我可以1)对其进行采样和2)取叉积://turntheiteratortoapipesowecansampleitvalsam

regex - hive SERDE 正则表达式 : Output format - want to use only few of the output Strings

输入文件如下eno::ename::dept::sal101::emp1::comp1::2800000201::emp2::comp2::2800000301::emp3::comp3::3400000401::emp4::comp4::3600000501::emp5::comp5::400000>createtableemp(enamestring,edeptstring)>rowformatserde'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'>WITHSERDEPROPERTIES(>"input.regex"="^([

hadoop - PIG : Unable to open iterator for alias AliasName. 标量在输出中有多于一行

我是pig的新手,正在尝试自学。我编写了一个脚本来获取从words.txt文件中读取的单词的纪元时间。这是脚本。words=LOAD'words.txt'ASword:chararray;B=FOREACHAGENERATECONCAT(CONCAT(A.word,'_'),(chararray)ToUnixTime(CurrentTime());dumpB;但问题是,如果words.txt文件只有一个单词,它会给出正确的输出。如果它有多个词,比如word1word2word3word4然后它给出了以下错误ERROR1066:UnabletoopeniteratorforaliasBj

java - Apache Spark : In PairFlatMapFunction, 如何将元组添加回 Iterable<Tuple2<Integer, String>> 返回类型

我是新手。我一直在研究涉及两个数据集的代码。因此,我从PairFlatMapFunction开始,在其中我正在处理映射器。JavaPairRDDtrainingArray=trainingData.flatMapToPair(newPairFlatMapFunction(){publicIterable>call(Strings){//codetoformthetuplesoftypeTuple2//newTuples2}如何将元组添加回可迭代类以供缩减器(reduceByKey)处理。如有任何指点,我们将不胜感激。 最佳答案 谢谢

regex - Hive 的正则表达式与普通正则表达式不同吗?

我正在使用Hive分析如下所示的Web日志415503--[10/Jun/1998:00:48:00+0000]"GET/english/images/nav_sitemap_off.gifHTTP/1.1"200416我使用下面的正则表达式将其加载到工作正常的配置单元表([^]*)([^]*)([^]*)(-|\\[[^\\]]*\\])([^\"]*|\"[^\"]*\")(-|[0-9]*)(-|[0-9]*)但是如果我在https://www.regex101.com/中检查这个正则表达式,此正则表达式与我的字符串不匹配。如果我删除block中的一些反斜杠(-|\\[[^\\]