草庐IT

regex_iterator

全部标签

regex - 提取文件名到第一个破折号

我们在一个目录中保存了数千个文件。那里的常见模式是日期。例如:foo-2013-09-01.gzbar-2013-09-01.gzfu-2013-09-02.gzba-2013-09-02.gzcat-2013-09-01.gzdog-2013-09-02.gzdog-2013-09-03.gz然后我们如何才能在第一个破折号之前获得唯一文件名列表?例如foobarfubacatdog我们不关心路径名,只关心第一部分(如果您能以type-date.filext格式看到它)。我们打算在for循环中使用最终结果,这将为每个类型创建一个子目录,其中包含按日期排列的所有其他文件。

hadoop - Nutch 2.0 和 Hadoop。如何防止缓存 conf/regex-urlfilter.txt

我在一台机器上安装了nutch2.x和hadoop1.2.1。我配置seed.txt、conf/regex-urlfilter.txt并运行命令crawlurls/seed.txtTestCrawlhttp://localhost:8088/solr/2然后我想更改conf/regex-urlfilter.txt中的规则我在2个文件中更改了它:~$find.-name'regex-urlfilter.txt'./webcrawer/apache-nutch-2.2.1/conf/regex-urlfilter.txt./webcrawer/apache-nutch-2.2.1/runt

regex - hive 正则表达式不工作

我正在尝试使用org.apache.hadoop.hive.serde2.RegexSerDe创建一个配置单元外部表来分析一些Log4J日志。然而,即使在http://www.regexr.com/中测试正常时,我的regex也无法正常工作。.我的问题是当我有多行日志时,例如,一个异常日志及其对应的StackTrace。这是一个例子:@@@@2015-09-29T11:20:45,549INFOMYHOSTNAMEmy-apporg.hibernate.jpa.internal.util.LogHelperHHH000204:ProcessingPersistenceUnitInfo[

regex - 使用 REGEX_EXTRACT_ALL 但投影我得到 "()"

我正在使用Cloudera-quickstat5.4。我有一个文件,每一行都有数据,例如:323.81.303.680--[25/Oct/2011:01:41:00-0500]"GET/download/download6.zipHTTP/1.1"2000"-""Mozilla/5.0(Windows;U;WindowsNT5.1;en-US;rv:1.9.0.19)Gecko/2010031422Firefox/3.0.19"在apachepig中,我使用的脚本如下:A=LOAD'weblog.txt'usingTextLoader()as(line:chararray);B=FOR

regex - 使用配置单元 regexp_replace 从数据中删除大括号和美元符号

我需要从配置单元中的一个字段中删除美元符号和大括号。示例数据:$210.53$210.53($390.53)($210.53)问题是有些记录有大括号,有些则没有。以下是我想出的语法:selectREGEXP_REPLACE(amount,'\(\$|\)','')asamountfromtablewhereid=1234;输出:$210.53$210.53390.53210.53此语法不会从没有大括号的记录中删除美元符号。有人可以指导我吗? 最佳答案 如果您想从字段中删除a)美元符号和b)括号,您需要编写涵盖这两种情况的正则表达式。

regex - 使用空格分隔符使用 hue 界面创建 Hive 表

在hue-hive接口(interface)中使用文件创建表时,我们必须指定一个分隔符。(制表符、空格、逗号等)。但是我的文件由一个或多个空格分隔。如何指定分隔符以一个或多个空格分隔。 最佳答案 您可以通过这种方式使用正则表达式作为分隔符来创建表格:数据,把数据放到hdfs中1234abcd创建表://grammarforcreatetableCREATETABLEtest1(astring,bstring,cstring,dstring)ROWFORMATSERDE'org.apache.hadoop.hive.contrib.s

regex - 配置对象配置单元表查询错误

我正在将S3中的日志文件加载到在EMR上运行的Hive中,但在查看数据时我得到了所有NULL...我创建的表是这样的:createexternaltablecoglogs(HostIDstring,ProcessIDstring,Timestring,TimeZoneOffsetstring,SessionIDstring,RequestIDstring,SubRequestIDstring,StepIDstring,Threadstring,Componentstring,BuildNumberstring,Levelstring,Loggerstring,Operationstri

Hive 中的 regex_extract

我有字符串列,我想要第一个分号后的数据列数据:Options;list:direct&ACFs:Sharemarket我希望输出为list:direct&ACFs:股票市场我试过这个选项选择(regexp_extract(property,'^(?:([^;]*)\;?){2}',1))结果输出为list:direct&如何在第一个分号之后填充完整的字符串,就像我的输出一样list:direct&ACFs:股票市场有人能帮帮我吗? 最佳答案 你可以试试这个selectregexp_extract('Options;list;d

hadoop - pig 中的 "unable to open iterator for an alias"是什么意思?

我正在尝试使用联合运算符,如下所示uni_b=UNIONA,B,C,D,E,F,G,H;这里所有的关系A,B,C...H都具有相同的模式当我使用dump运算符时,直到85%运行正常..之后它显示以下错误..ERROR1066:Unabletoopeniteratorforaliasuni_b这是什么?问题出在哪里?我应该如何调试?这是我的pig脚本...ip=load'/jee/jee_data.txt'USINGPigStorage(',')as(id:Biginteger,fname:chararray,lname:chararray,board:chararray,eid:cha

hadoop - 如何有效地读取带有 spark 路径的文件,即想要返回 `wholeTextFiles` 的 `RDD[String, Iterator[String]]`

大数据中的一个常见问题是将数据转换为大数据友好格式(parquet或TSV)。在当前返回RDD[(String,String)](path->wholefileasstring)的SparkwholeTextFiles中,这是一种有用的方法,但会导致许多问题当文件很大时(主要是内存问题)。原则上应该可以使用底层HadoopAPI编写如下方法defwholeTextFilesIterators(path:String):RDD[(String,Iterator[String])]其中迭代器是文件(假设换行符作为分隔符)并且迭代器正在封装底层文件读取和缓冲。在阅读代码一段时间后,我认为解决