草庐IT

regex_extract

全部标签

regex - 使用正则表达式选择 numpy 数组中的元素

可以如下选择numpy数组中的元素a=np.random.rand(100)sel=a>0.5#selectelementsthataregreaterthan0.5a[sel]=0#dosomethingwiththeselectionb=np.array(list('abcabcabc'))b[b==a]='A'#convertallthea'stoA'snp.where函数使用此属性来检索索引:indices=np.where(a>0.9)我想做的是能够在这种元素选择中使用正则表达式。例如,如果我想从上面的b中选择匹配[Aab]正则表达式的元素,我需要编写以下代码:regexp=

Python zipfile.extract() 不提取所有文件

我正在尝试使用此处找到的代码提取压缩文件夹。defunzip(source_filename,dest_dir):withzipfile.ZipFile(source_filename)aszf:formemberinzf.infolist():words=member.filename.split('/')path=dest_dirforwordinwords[:-1]:drive,word=os.path.splitdrive(word)head,word=os.path.split(word)ifwordin(os.curdir,os.pardir,''):continuepat

javascript - Selenium / python : extract text from a dynamically-loading webpage after every scroll

我正在使用Selenium/python自动向下滚动社交媒体网站并抓取帖子。我目前正在滚动一定次数后一次“点击”提取所有文本(下面的代码),但我想在每次滚动后只提取新加载的文本。例如,如果页面最初包含文本“A、B、C”,然后在第一次滚动后显示“D、E、F”,我想存储“A、B、C”,然后滚动,然后存储“D、E、F”等。我想提取的具体元素是帖子的日期和消息文本,可以使用css选择器'.message-date'和'获得。message-body',分别(例如,dates=driver.find_elements_by_css_selector('.message-date'))。谁能建议如

python - 高级 Python 正则表达式 : how to evaluate and extract nested lists and numbers from a multiline string?

我试图将元素与多行字符串分开:lines='''c0c1c2c3c4c5010100.5[1.5,2][[10,10.4],[c,10,eee]][[a,bg],[5.5,ddd,edd]]100.5120200.5[2.5,2][[20,20.4],[d,20,eee]][[a,bg],[7.5,udd,edd]]200.5'''我的目标是得到一个列表lst这样:#firstvalueisindexlst[0]=['c0','c1','c2','c3','c4','c5']lst[1]=[0,10,100.5,[1.5,2],[[10,10.4],['c',10,'eee']],[[

python - 如何在 Python 中实现冗长的 REGEX

我正在尝试在Python(2.7)中使用冗长的正则表达式。如果这很重要,我只是想让它更容易返回并在未来的某个时候更清楚地理解表达。因为我是新手,所以我首先创建了一个紧凑的表达式以确保我得到了我想要的。这里是简洁的表达式:test_verbose_item_pattern=re.compile('\n{1}\b?I[tT][eE][mM]\s+\d{1,2}\.?\(?[a-e]?\)?.*[^0-9]\n{1}')它按预期工作这是详细的表达方式verbose_item_pattern=re.compile("""\n{1}#beginwithanewlineallowonlyonene

python - 如何使用 Regex 使用 Python 查找按字母顺序排列的字符串?

所以我面临着一个挑战——找到一个字符串中最长的字母字符串。例如,“abcghiijkyxz”应该导致“ghiijk”(是的,i加倍)。我一直在使用循环来解决这个问题——遍历整个字符串,然后针对每个字符,使用lower和ord开始第二个循环。编写该循环不需要任何帮助。但是,有人向我建议Regex非常适合这类事情。我的正则表达式很弱(我知道如何获取静态集,我的前瞻性知识扩展到知道它们存在)。我将如何编写一个Regex来向前看,并检查future的字符是否按字母顺序排列?或者使用Regex的建议对这类事情不切实际?编辑:普遍的共识似乎是正则表达式对于这类事情来说确实很糟糕。

python - regex.sub() 给出与 re.sub() 不同的结果

我与Czech一起工作Python3.4中的重音文本。调用re.sub()用正则表达式对重音句子进行替换效果很好,但使用用re.compile()编译的正则表达式然后调用regex.sub()失败。在这种情况下,我对re.sub()使用相同的参数和regex.sub()importrepattern=r'(?我相信原因是重音,因为对于一个没有重音的句子re.sub()和regex.sub()工作相同。但在我看来这像是一个错误,因为传递相同的参数会返回不同的结果,这是不应该发生的。本主题因不同的平台和语言环境而变得复杂,因此它可能无法在您的系统上重现。这是我的控制台的屏幕截图。您是否发现

regex - Python字符串匹配

如果一个字符串包含*SUBJECT123,在python中如何判断该字符串中是否包含subject? 最佳答案 if"subject"inmystring.lower():#dosomething 关于regex-Python字符串匹配,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/3351218/

python - 如何使用 Regex 指定长 url 模式,以便它们遵循 PEP8 准则

我在Django中有一个类似这样的长url模式:url(r'^(?i)top-dir/(?P[-\w]+?)/(?P[-\w]+?)/(?P[-\w]+?).html/$','apps.Discussion.views.pricing',肯定它不遵循PEP8指南,因为字符在一行中超过80个。我找到了两种解决方法:第一个(使用反斜杠):url(r'^(?i)top-dir/(?P[-\w]+?)/(?P[-\w]+?)'\'/(?P[-\w]+?).html/$','apps.Discussion.views.pricing',第二个-使用():url((r'^(?i)top-dir/(

python - 在 Python 中生成与 RegEx 匹配的字符串

这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Reversingaregularexpressioninpython我想我遇到了一个听起来比实际更容易的问题……我不太确定。我想定义一个正则表达式,我想构建一些匹配它的字符串。有没有我可以导入的具有此功能的模块?最好不要使用re.search或re.match的蛮力方法。必须有一种更优雅的方法来做到这一点。