草庐IT

regex_extract

全部标签

ios - Cocoa XCode 中基本 RegEx 实现(在另一个字符串中搜索一个字符串)的简单(教程/博客/解释)?

我有一个存储在字符串中的html代码。现在我想从源代码中提取其中一张图片。我之前使用的是REgExKitLite,但根据此链接http://www.cocoabuilder.com/archive/cocoa/288966-applications-using-regexkitlite-no-longer-being-accepted-at-the-appstore.html,如果我们想将我的应用提交到应用商店,建议不要使用REGExKitLite。我只需要一个非常简单的实现来使用正则表达式从一个字符串中提取另一个字符串。大多数其他SO解决方案都试图完成相当复杂的任务,因此对于像我这样

regex - 更改 grep 正则表达式输出

这个命令怎么来的用这个命令hadoopfs-ls-R/path/to/dir/d_20141123*|grep-oE'(.*)?\/(.*)\/'我得到了这个输出-rw-r--r--2014-11-2320:00/path/to/dir/d_20141123-2301/-rw-r--r--2014-11-2320:00/path/to/dir/d_20141123-2302/-rw-r--r--2014-11-2320:00/path/to/dir/d_20141123-2303/......但是用hadoopfs-ls-R/path/to/dir/d_20141123*|grep-o

regex - Hive:反斜杠的正则表达式

我需要查询中间有反斜杠字符的所有行。这是我写的查询:select*fromtablewhereA='2014-10-30'andBrlike'.asterisk\.asterisk'(必须手动输入星号。查询本身就有符号)无论B列是否有反斜杠,它都会返回整个表格。'.\\.'未返回任何行,即使在某些行中B具有反斜杠字符也是如此。样本B-你好可以帮你查一下详情/ 最佳答案 selectregexp_replace(datecolumn,'-','\\')asdtfromtablename;

regex - 基于多个分隔符拆分文件

是否可以使用Pig基于多个分隔符拆分文件例子:我有一个文件如下abc|123>xyz:amdxyz:amc是否可以根据|,>,:,abc|123|xyz|amd|ytsabd|124|xyz|amc|yts谢谢 最佳答案 使用这种模式比分割更容易捕捉到你想要的东西([^|>:Demo 关于regex-基于多个分隔符拆分文件,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/28947

regex - 如何以不区分大小写的方式将文件复制到 HDFS

我必须将某些CSV文件复制到HDFS格式ABCDWXYZ.csv即。PERSONDETAILS.csv,我必须将它复制到名称为AbcdWxyz的HDFS目录,即PersonDetails。现在的问题是我没有确切的HDFS目录名称,我在修剪它并启动后从CSV文件中获取它Hadoopfs-put$localRootDir/$Dir/*.csv$HDFSRootDir/$Dir但它会抛出一个错误,因为在HDFS中没有这样的目录,所有字母都是大写的。现在如何将文件复制到HDFS?有没有办法使用正则表达式或native使Hadoopput命令不区分大小写。或者有没有一种方法可以将字符串转换为所需

regex - Hive 表列只接受键盘字符、数字并忽略控制和 ascii 字符

hive中是否有任何正则表达式或翻译或任何其他表达式只考虑键盘字符而忽略Hive表中的控制字符和ascii字符?示例:regexp_replace(option_type,'[^a-zA-Z0-9]+','')在上面的表达式中,只考虑字符和数字,但任何键盘特殊字符数据,如%、&、*、.、?、..可用,然后我得到的输出为空白。上校:bhuvi?你在哪里?结果:bhuvi你在哪里但我想输出为bhuvi?你在哪里?如果有特殊的键盘字符就这样出现后它会按原样显示,任何控制或ascii字符出现时它都会忽略。 最佳答案 您应该考虑到各种键盘布局

regex - 表格中的 HIVE 正则表达式记录定界符空值

请找到我的表格描述、Serde和日志格式。createtabletemp.rawserversidedata(ipvarchar(65000),dtvarchar(65000),apinamevarchar(65000),appnamevarchar(65000),contentidvarchar(65000),eidvarchar(65000),versionvarchar(65000),uidvarchar(65000),modelvarchar(65000))ROWFORMATSERDE'org.apache.hadoop.hive.serde2.RegexSerDe'WITHS

performance - Tableau 受限 Data Extract 连接速度慢

我在Tableau中设计可视化,我的数据在Hive/hadoop中,数据量很大,当我尝试设计可视化时,查询运行非常非常慢,因为每次它尝试从hadoop中提取数据。所以对于任何可视化,简单的拖放通常需要4分钟,而可视化可能需要10秒的拖放,所以我最终要花很多时间等待。我尝试使用数据提取选项,但是它永远需要数据提取(38分钟并且仍在继续)问题:有没有办法我只能提取1000条记录,这样我就可以处理这1000条记录来创建可视化,然后在设计完成后切换到实时连接。我试图查看画面社区的帮助,但到目前为止没有运气 最佳答案 复制XL中的所有数据并将

regex - 将正则表达式应用于解释器 Flume 配置中 "|"分隔字符串中的第二个单词

我的要求是对来自kafka的数据应用正则表达式。数据如下:abc|def|mnq|xyzabc1|def1|mnq1|xyz1abc2|def2|mnq2|xyz2我想使用水槽解释器对第一个字符串中的第二个单词应用正则表达式,即(def)。正则表达式可以过滤单词和小数。有人可以帮忙吗。 最佳答案 以下python代码匹配所有行中的所有第二个单词:importre#used||toaddmultilinescombineintoonestringparent="""abc|def|mnq|xyz||abc1|def1|mnq1|xyz

hadoop - PIG-Hadoop - 在 PIG 中有一种方法可以使用 Regex 进行内部连接

我有2个文件(消息、key)。我想从“消息”中提取所有包含“键”中的单词的行。messages=LOAD'my-messages.txt'as(message:chararray);keys=LOAD'keys.txt'as(key:chararray);现在我知道我可以在消息和键之间进行内部连接,但这在以下情况下不起作用:message="hithere"key="hi"我正在考虑使用UDF来绕过它:DEFINEcontainsKeymy.udf.Matches("path/keys.txt");matches=FILTERmessagesBYcontainsKey(messages