草庐IT

python - 在 Python 中高效地进行多个字符串替换

coder 2023-08-20 原文

如果我想执行多个字符串替换,执行此操作的最有效方法是什么?

我在旅行中遇到的这种情况的例子如下:

>>> strings = ['a', 'list', 'of', 'strings']
>>> [s.replace('a', '')...replace('u', '')  for s in strings if len(s) > 2]
['a', 'lst', 'of', 'strngs']

最佳答案

您给出的具体示例(删除单个字符)非常适合字符串的 translate 方法,用单个字符替换单个字符也是如此。如果输入的字符串是 Unicode 字符串,那么,除了上述两种“替换”之外,用 translate 方法将单个字符替换为多个字符串也是可以的(如果您需要,则不需要不过,可以处理字节字符串)。

如果您需要替换多个 字符的子字符串,那么我也建议使用正则表达式——尽管不是@gnibbler 的回答所推荐的方式;相反,我会从 r'onestring|another|yetanother|orthis' 构建正则表达式(加入要用竖线替换的子字符串——一定要 re.escape 如果它们包含特殊字符,当然)并编写一个基于字典的简单替换函数。

我现在不打算提供很多代码,因为我不知道这两段中的哪一段适用于您的实际需求,但是(当我稍后回家再次检查时;-)我根据您对问题的编辑,我们很乐意根据需要进行编辑以添加代码示例(比对此答案的评论更有用;-)。

编辑:在评论中,OP 说他想要一个“更笼统”的答案(没有澄清这意味着什么)然后在他的 Q 的编辑中他说他想研究“权衡”在各种片段之间所有都使用单字符子字符串(并检查其存在,而不是按照最初的要求进行替换——当然是完全不同的语义)。

鉴于这种彻底和完全的困惑,我只能说,为了“检查权衡”(性能方面),我喜欢使用 python -mtimeit -s'setup things here' 'statements to check'(确保要检查的语句没有副作用,以避免扭曲时间测量,因为 timeit 隐式循环以提供准确的计时测量)。

一个一般性的答案(没有任何权衡,并且涉及多字符子串,与他的 Q 的编辑完全相反,但与他的评论一致——两者完全矛盾,当然不可能满足两者):

import re

class Replacer(object):

  def __init__(self, **replacements):
    self.replacements = replacements
    self.locator = re.compile('|'.join(re.escape(s) for s in replacements))

  def _doreplace(self, mo):
    return self.replacements[mo.group()]

  def replace(self, s):
    return self.locator.sub(self._doreplace, s)

使用示例:

r = Replacer(zap='zop', zip='zup')
print r.replace('allazapollezipzapzippopzip')

如果要替换的部分子字符串是 Python 关键字,则需要少一些直接传递,例如:

r = Replacer(abc='xyz', def='yyt', ghi='zzq')

会失败,因为 def 是关键字,所以您需要例如:

r = Replacer(abc='xyz', ghi='zzq', **{'def': 'yyt'})

等等。

我发现这对一个类(而不是过程式编程)来说是一个很好的用途,因为 RE 定位要替换的子字符串,dict 表示用什么替换它们,以及执行替换的方法,真的很想成为“保持在一起”,而类实例正是在 Python 中执行这种“保持在一起”的正确方法。闭包工厂也可以工作(因为 replace 方法实际上是需要在“外部”可见的实例的唯一部分)但可能不太清楚,更难调试的方式:

def make_replacer(**replacements):
  locator = re.compile('|'.join(re.escape(s) for s in replacements))

  def _doreplace(mo):
    return replacements[mo.group()]

  def replace(s):
    return locator.sub(_doreplace, s)

  return replace

r = make_replacer(zap='zop', zip='zup')
print r('allazapollezipzapzippopzip')

唯一真正的优势可能是非常适度的更好的性能(需要使用 timeit 检查“基准案例”被认为对使用它的应用程序具有重要意义和代表性)作为对“免费”的访问变量”(replacementslocator_doreplace)在这种情况下可能比访问限定名称(self.replacements 等)在正常的、基于类的方法中(是否是这种情况将取决于使用的 Python 实现,因此需要在重要的基准测试中检查 timeit!)。

关于python - 在 Python 中高效地进行多个字符串替换,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3367809/

有关python - 在 Python 中高效地进行多个字符串替换的更多相关文章

  1. ruby - 如何从 ruby​​ 中的字符串运行任意对象方法? - 2

    总的来说,我对ruby​​还比较陌生,我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础,我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用

  2. Ruby 解析字符串 - 2

    我有一个字符串input="maybe(thisis|thatwas)some((nice|ugly)(day|night)|(strange(weather|time)))"Ruby中解析该字符串的最佳方法是什么?我的意思是脚本应该能够像这样构建句子:maybethisissomeuglynightmaybethatwassomenicenightmaybethiswassomestrangetime等等,你明白了......我应该一个字符一个字符地读取字符串并构建一个带有堆栈的状态机来存储括号值以供以后计算,还是有更好的方法?也许为此目的准备了一个开箱即用的库?

  3. ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2

    很好奇,就使用ruby​​onrails自动化单元测试而言,你们正在做什么?您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您?git中的预提交Hook?只是手动调用?我完全理解测试,但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的,并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您? 最佳答案 不确定您到底想听什么,但是有几个级别的自动代码库控制:在处理某项功能时,您可以使用类似autotest的内容获得关于哪些有效,哪些无效的即时反馈。要确保您的提

  4. ruby-on-rails - 在 Rails 中将文件大小字符串转换为等效千字节 - 2

    我的目标是转换表单输入,例如“100兆字节”或“1GB”,并将其转换为我可以存储在数据库中的文件大小(以千字节为单位)。目前,我有这个:defquota_convert@regex=/([0-9]+)(.*)s/@sizes=%w{kilobytemegabytegigabyte}m=self.quota.match(@regex)if@sizes.include?m[2]eval("self.quota=#{m[1]}.#{m[2]}")endend这有效,但前提是输入是倍数(“gigabytes”,而不是“gigabyte”)并且由于使用了eval看起来疯狂不安全。所以,功能正常,

  5. ruby-on-rails - unicode 字符串的长度 - 2

    在我的Rails(2.3,Ruby1.8.7)应用程序中,我需要将字符串截断到一定长度。该字符串是unicode,在控制台中运行测试时,例如'א'.length,我意识到返回了双倍长度。我想要一个与编码无关的长度,以便对unicode字符串或latin1编码字符串进行相同的截断。我已经了解了Ruby的大部分unicode资料,但仍然有些一头雾水。应该如何解决这个问题? 最佳答案 Rails有一个返回多字节字符的mb_chars方法。试试unicode_string.mb_chars.slice(0,50)

  6. python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声? - 2

    关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。

  7. ruby-on-rails - Rails 3 中的多个路由文件 - 2

    Rails2.3可以选择随时使用RouteSet#add_configuration_file添加更多路由。是否可以在Rails3项目中做同样的事情? 最佳答案 在config/application.rb中:config.paths.config.routes在Rails3.2(也可能是Rails3.1)中,使用:config.paths["config/routes"] 关于ruby-on-rails-Rails3中的多个路由文件,我们在StackOverflow上找到一个类似的问题

  8. ruby-on-rails - 按天对 Mongoid 对象进行分组 - 2

    在控制台中反复尝试之后,我想到了这种方法,可以按发生日期对类似activerecord的(Mongoid)对象进行分组。我不确定这是完成此任务的最佳方法,但它确实有效。有没有人有更好的建议,或者这是一个很好的方法?#eventsisanarrayofactiverecord-likeobjectsthatincludeatimeattributeevents.map{|event|#converteventsarrayintoanarrayofhasheswiththedayofthemonthandtheevent{:number=>event.time.day,:event=>ev

  9. ruby - 将差异补丁应用于字符串/文件 - 2

    对于具有离线功能的智能手机应用程序,我正在为Xml文件创建单向文本同步。我希望我的服务器将增量/差异(例如GNU差异补丁)发送到目标设备。这是计划:Time=0Server:hasversion_1ofXmlfile(~800kiB)Client:hasversion_1ofXmlfile(~800kiB)Time=1Server:hasversion_1andversion_2ofXmlfile(each~800kiB)computesdeltaoftheseversions(=patch)(~10kiB)sendspatchtoClient(~10kiBtransferred)Cl

  10. ruby-on-rails - 在 Ruby 中循环遍历多个数组 - 2

    我有多个ActiveRecord子类Item的实例数组,我需要根据最早的事件循环打印。在这种情况下,我需要打印付款和维护日期,如下所示:ItemAmaintenancerequiredin5daysItemBpaymentrequiredin6daysItemApaymentrequiredin7daysItemBmaintenancerequiredin8days我目前有两个查询,用于查找maintenance和payment项目(非排他性查询),并输出如下内容:paymentrequiredin...maintenancerequiredin...有什么方法可以改善上述(丑陋的)代

随机推荐