草庐IT

regex_extract

全部标签

swift : Regex for remove all inline HTML attributes

我想清除HTML字符串文本中的所有属性。我找到了很多答案,但问题是如果我们没有正确的CSS样式,正则表达式的语法将无法工作。我的处境很困难,因为从API获取的HTML文本与其样式不符。可能是这样的:AngkorWatisatemplecomplexinCambodiaandthelargestreligiousmonumentintheworld,onasitemeasuring162.6hectares(1,626,000m2;402acres).ItwasoriginallyconstructedasaHindutemplededicatedtothegodVishnuforthe

regex - 来自 URL 的 Youtube 视频 ID - Swift3

基本上我有一个YoutubeURL作为字符串,我想从该URL中提取视频ID。我在objective-c中找到了一些代码,如下所示:NSError*error=NULL;NSRegularExpression*regex=[NSRegularExpressionregularExpressionWithPattern:@"?.*v=([^&]+)"options:NSRegularExpressionCaseInsensitiveerror:&error];NSTextCheckingResult*match=[regexfirstMatchInString:youtubeURLopti

regex - Swift:解析 HTML 的最快方法

我有一个很大的源代码文件,我需要从中解析一些特定的文本。我想尽快完成它。在Swift中执行此操作的最快方法是什么?这些是我能想到的所有选项?使用第三方字符串函数库-我试过了。它运行良好,但我认为与一般的其他较低级别的方法相比,这要慢得多,除非有一些特别快的方法专门用于Swift。使用第三方HTML解析器。我已经研究了一些,但我不确定它们是否适合我的需要。在我继续这个之前,我只想知道这些是否通常更快,是否有任何特别快的,以及我是否能够调整它们以从源代码中获得我想要的具体内容。使用字符串或NSString。据我了解,使用String与NSString应该不会带来速度上的差异。我对这种方法很

regex - Swift 3 - 如何在正则表达式中提取捕获的组?

我正在使用Swift3并尝试访问捕获的组。letregexp="((ALREADYPAID|NOTALR|PROVIDERMAY|READY|MAYBILL|BILLYOU|PAID)((.|\\n)*))((\\d+)(\\.+|-+)(\\d\\d))"//checkifsomesubstringisintherecognizedtextifletrange=stringText.range(of:regexp,options:.regularExpression){letresult=tesseract.recognizedText.substring(with:range)}我

Java Regex - 减少字符串中的空格

我没有时间思考正则表达式,我需要一个快速的答案。平台是Java。我需要字符串"Sometextwithspaces"...转换为"Sometextwithspaces"即将2个或多个连续空格更改为1个空格。 最佳答案 Stringa="Sometextwithspaces";Stringb=a.replaceAll("\\s+","");assertb.equals("Sometextwithspaces"); 关于JavaRegex-减少字符串中的空格,我们在StackOverflow

字符类中的 Java Regex 非法转义字符

我正在尝试确定传递到我的Expressions类中的表达式是否具有运算符。+-*/^分别用于加、减、乘、除和指数。这段代码有什么问题?privatestaticbooleanhasOperator(Stringexpression){returnexpression.matches("[\+-\*/\^]+");}我以为我已经正确转义了特殊字符,但我在尝试编译时不断收到错误:“非法转义字符”。感谢您的帮助。 最佳答案 不要转义不需要转义的:returnexpression.matches("[-+*/^]+");应该工作得很好。大多

regex - 如何使用 grep 匹配空格或换行符

我想用一个词来grep一个文件,比如“AAA”,它以空格或换行符结尾。我知道如何单独编写,如下所示,但在组合它们时遇到问题(从某种意义上说,它同时输出VVVAAA和AAAVVV)。$echo-e"AAAVVV\nVVVAAA\nBBB"|grep"AAA$">VVVAAA$echo-e"AAAVVV\nVVVAAA\nBBB"|grep"AAA[[:space:]]">AAAVVV我试过使用[],但没有成功.. 最佳答案 如果您要查找单词AAA后跟字符串中任意位置或行尾的空格,则使用grep-P"AAA(|$)"

Python-Regex,这是怎么回事?

我最近有一本关于python的书,其中有一章是关于Regex的,有一段代码我真的看不懂。有人可以准确解释这里发生了什么(这部分是关于Regex组的)吗?>>>my_regex=r'(?PZip:\s*\d\d\d\d\d)\s*(State:\s*\w\w)'>>>addrs="Zip:10010State:NY">>>y=re.search(my_regex,addrs)>>>y.groupdict('zip'){'zip':'Zip:10010'}>>>y.group(2)'State:NY' 最佳答案 正则表达式定义:(?P.

java - Python 和 Java 在 RegEx 语法上的差异

我在Python中有一个有效的正则表达式,我正在尝试转换为Java。看起来在实现上有细微的差别。正则表达式正试图匹配另一个正则表达式。有问题的RegEx是:/(\\.|[^[/\\\n]|\[(\\.|[^\]\\\n])*])+/([gim]+\b|\B)它有问题的字符串之一是:/\s+/;regex不应该匹配结尾的;。在Python中,RegEx可以正常工作(并且不匹配结尾的;,但在Java中它确实包含;。问题:我该怎么做才能让这个RegEx在Java中运行?根据我阅读的内容here这个正则表达式应该没有区别。Python与Java中的RegEx实现之间是否存在差异列表?

python - 删除没有/text().extract() 的 HTML 标签

首先,我对这一切都很陌生,所以请准备好我从各种来源复制/粘贴的一些代码。我希望能够删除scrapy返回的任何html代码。我已将所有内容存储在MySQL中,没有任何问题,但我无法开始工作的是删除大量“”和其他html标签。我最初只是使用/text().extract()运行,但它会随机遇到一个以这种方式格式化的单元格:TEXTTextTextTextText没有一个模式可以让我在使用/text之间做出选择,我正在寻找初学者可以实现的最简单的方法,它将去除所有这些。fromscrapy.spiderimportBaseSpiderfromscrapy.selectorimportHtml