re-entrant_草庐IT

python - 我可以使用 python 're' 来解析复杂的人名吗？

因此，我的主要痛点之一是名称理解以及拼凑家喻户晓的名称和头衔。我有一个80%的解决方案，其中包含一个非常庞大的正则表达式，我今天早上放在一起，我可能不应该为此感到自豪(但无论如何我都以一种病态的方式)正确匹配以下示例:JohnJeffriesJohnJeffries,M.D.JohnJeffries,MDJohnJeffriesandJimSmithJohnandJimJeffriesJohnJeffries&JenniferWilkes-Smith,DDS,MDJohnJeffries,CPA&JenniferWilkes-Smith,DDS,MDJohnJeffries,C.P.A

python - 使用 re.split 拆分字符串时的额外空元素

我正在尝试使用re.split在Python中拆分看起来像这样的字符串:#NAME="Foo"NAME2="foobar"NAME3="BARBAR"comp="NAME=\"Foo\"NAME2=\"FOOBAR\"NAME3=\"BARBAR\""这就是我的包含正则表达式的拆分函数的样子:re.split('(\s\w+\=\".*?\")',comp)结果是这样的:['NAME="Foo"','NAME2="foobar"','','NAME3="BARBAR"','']虽然这是正确的，但我想摆脱所有空元素。最佳答案这是您

python - re.sub 用逗号替换空格

我有一个看起来像这样的项目列表:2.4-2.04.3-6.012.51.0我想要的是删除所有这些空格并将它们替换为“,”(逗号)，除了第一个数字前面的空格(它们应该被删除(空格)而不是替换为任何东西)。所以上面的字符串项在替换后应该是这样的:2.4,-2.0,4.3-6.0,12.5,1.0不是这样的:,2.4,-2.0,4.3,-6.0,12.5,1.0下面的代码是做什么的:newStrings=[]forsinstrings:newStrings.append(re.sub('\s+',',',s))应该使用re.sub的什么正则表达式来实现？谢谢。最

python - re模块中的groups和groups有什么区别？

这里是:importre>>>s='abc-jk-lm'>>>m=re.search('-\w+\w+',s)>>>m.groups()()>>>m.group(0)'-jk'为什么groups()没有给我任何东西，但group(0)却有一些？有什么区别？跟进代码如下>>>re.findall('(-\w+\w+)',s)['-jk','-lm','-no']findall可以得到所有的-\w+\w+子串，但是看看这个:>>>m=re.search('(-\w+\w+)+',s)>>>m.groups()('-jk',)为什么search不能给我所有的子字符串？再次跟进如果s='abc

python - scrapy response.xpath 在具有默认命名空间的 xml 文档上返回空数组，而 response.re 有效

我是scrapy的新手，我正在玩scrapyshell试图抓取这个网站:www.spiegel.de/sitemap.xml我用scrapyshell"http://www.spiegel.de/sitemap.xml"在我使用的时候一切正常response.body我可以看到整个页面，包括xml标签但是例如这个:response.xpath('//loc')根本行不通。我得到的结果是一个空数组同时response.selector.re('somevalidregexpexpression')会起作用知道可能是什么原因吗？可能与编码有关？该网站不是utf-8我在Win7上使用pyth

python - 为什么\b 在 python re 模块中不起作用？

这个问题在这里已经有了答案:Doregularexpressionsfromtheremodulesupportwordboundaries(\b)?(5个答案)关闭5年前。众所周知，\b在正则表达式中表示单词边界。但是，python中re模块的以下代码不起作用:>>>p=re.compile('\baaa\b')>>>p.findall("aaavvv")[]我觉得findall的返回结果应该是["aaa"]，但是什么也没找到。怎么了？

python - re.sub (".*", ", "(replacement )", "text") 在 Python 3.7 上加倍替换

在Python3.7上(在Windows64位上测试过)，使用RegEx.*替换字符串会使输入字符串重复两次!在Python3.7.2上:>>>importre>>>re.sub(".*","(replacement)","sampletext")'(replacement)(replacement)'在Python3.6.4上:>>>importre>>>re.sub(".*","(replacement)","sampletext")'(replacement)'在Python2.7.5(32位)上:>>>importre>>>re.sub(".*","(replacement)"

python - 如何在 Python 中正确地使用 re.sub() 进行迭代

我想制作一个创建脚注的Python脚本。这个想法是找到所有类型为"Somebodytext.{^}{Somefootnotetext.}"的字符串，并将它们替换为"Somebodytext.^#"，其中"^#"是正确的脚注编号。(我的脚本的不同部分处理实际打印出文件底部的脚注。)我为此使用的当前代码是:pattern=r"\{\^\}\{(.*?)\}"i=0defcreate_footnote_numbers(match):globalii+=1return""+str(i)+""new_body_text=re.sub(pattern,create_footnote_numbers

python - python re.template 函数有什么作用？

在ipython中使用re模块时，我注意到一个未记录的template函数:In[420]:re.template?Type:functionBaseClass:StringForm:Namespace:InteractiveFile:/usr/tideway/lib/python2.7/re.pyDefinition:re.template(pattern,flags=0)Docstring:Compileatemplatepattern,returningapatternobject还有一个标志re.TEMPLATE及其别名re.T。2.7或3.2的文档中均未提及这些内容。他们在做

python - 如何使用 re 查找连续、重复的字符

我想在一个字符串中找到所有连续的、重复的字符block。例如，请考虑以下内容:s=r'http://www.google.com/search=ooo-jjj'我想找到的是:www、ooo和jjj。我试着这样做:m=re.search(r'(\w)\1\1',s)但它似乎并没有像我预期的那样工作。有什么想法吗？另外，我怎样才能在Bash中做到这一点？最佳答案 ((\w)\2{2,})匹配3个或更多连续字符:In[71]:importreIn[72]:s=r'http://www.google.com/search=ooo-jjjj