我正在优化一些代码,其主要瓶颈在于运行并访问非常大的类似结构的对象列表。目前我正在使用命名元组,以提高可读性。但是一些使用“timeit”的快速基准测试表明,在性能是一个因素的情况下,这确实是错误的方法:
具有 a、b、c 的命名元组:
>>> timeit("z = a.c", "from __main__ import a")
0.38655471766332994
类使用__slots__,带有a、b、c:
>>> timeit("z = b.c", "from __main__ import b")
0.14527461047146062
带有键 a、b、c 的字典:
>>> timeit("z = c['c']", "from __main__ import c")
0.11588272541098377
具有三个值的元组,使用常量键:
>>> timeit("z = d[2]", "from __main__ import d")
0.11106188992948773
使用常量键列出三个值:
>>> timeit("z = e[2]", "from __main__ import e")
0.086038238242508669
具有三个值的元组,使用本地键:
>>> timeit("z = d[key]", "from __main__ import d, key")
0.11187358437882722
使用本地键列出三个值:
>>> timeit("z = e[key]", "from __main__ import e, key")
0.088604143037173344
首先,这些小的 timeit 测试是否有任何东西会使它们无效?我每个都跑了几次,以确保没有随机的系统事件将它们抛出,结果几乎相同。
似乎字典在性能和可读性之间提供了最佳平衡,类排在第二位。这很不幸,因为就我的目的而言,我还需要对象是类似序列的;因此我选择了命名元组。
列表要快得多,但常量键是不可维护的;我必须创建一堆索引常量,即 KEY_1 = 1、KEY_2 = 2 等,这也不理想。
我是否坚持这些选择,或者我错过了其他选择?
最佳答案
要记住的一点是,namedtuples 已针对作为元组的访问进行了优化。如果您将访问器更改为 a[2] 而不是 a.c,您将看到与元组类似的性能。原因是名称访问器有效地转换为对 self[idx] 的调用,因此为索引和支付名称查找价格。
如果您的使用模式是通过名称进行访问很常见,但作为元组访问不是,您可以编写一个与 namedtuple 相同的快速等效方法,以相反的方式执行操作:将索引查找推迟到按名称访问。但是,您将在索引查找上付出代价。例如,这是一个快速实现:
def makestruct(name, fields):
fields = fields.split()
import textwrap
template = textwrap.dedent("""\
class {name}(object):
__slots__ = {fields!r}
def __init__(self, {args}):
{self_fields} = {args}
def __getitem__(self, idx):
return getattr(self, fields[idx])
""").format(
name=name,
fields=fields,
args=','.join(fields),
self_fields=','.join('self.' + f for f in fields))
d = {'fields': fields}
exec template in d
return d[name]
但是当 __getitem__ 必须被调用时,时机非常糟糕:
namedtuple.a : 0.473686933517
namedtuple[0] : 0.180409193039
struct.a : 0.180846214294
struct[0] : 1.32191514969
即,与 __slots__ 类的属性访问性能相同(不出所料 - 就是这样),但由于基于索引的访问中的双重查找而造成巨大的损失。 (值得注意的是 __slots__ 实际上在速度方面并没有太大帮助。它节省了内存,但没有它们的访问时间大致相同。)
第三种选择是复制数据,例如。从列表子类化并将值存储在属性和列表数据中。但是,您实际上并没有获得与列表等效的性能。仅在子类化(引入对纯 python 重载的检查)时,速度就会受到很大影响。因此,在这种情况下 struct[0] 仍然需要大约 0.5 秒(与原始列表的 0.18 相比),并且您的内存使用量增加了一倍,所以这可能不值得。
关于python - Python 中最快(访问)类似结构的对象是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2646157/
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。
我有一个模型:classItem项目有一个属性“商店”基于存储的值,我希望Item对象对特定方法具有不同的行为。Rails中是否有针对此的通用设计模式?如果方法中没有大的if-else语句,这是如何干净利落地完成的? 最佳答案 通常通过Single-TableInheritance. 关于ruby-on-rails-Rails-子类化模型的设计模式是什么?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.co
我想将html转换为纯文本。不过,我不想只删除标签,我想智能地保留尽可能多的格式。为插入换行符标签,检测段落并格式化它们等。输入非常简单,通常是格式良好的html(不是整个文档,只是一堆内容,通常没有anchor或图像)。我可以将几个正则表达式放在一起,让我达到80%,但我认为可能有一些现有的解决方案更智能。 最佳答案 首先,不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案,它会随着HTML的变化而崩溃,或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h
我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案 他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%
我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
为什么4.1%2返回0.0999999999999996?但是4.2%2==0.2。 最佳答案 参见此处:WhatEveryProgrammerShouldKnowAboutFloating-PointArithmetic实数是无限的。计算机使用的位数有限(今天是32位、64位)。因此计算机进行的浮点运算不能代表所有的实数。0.1是这些数字之一。请注意,这不是与Ruby相关的问题,而是与所有编程语言相关的问题,因为它来自计算机表示实数的方式。 关于ruby-为什么4.1%2使用Ruby返
我有一个包含模块的模型。我想在模块中覆盖模型的访问器方法。例如:classBlah这显然行不通。有什么想法可以实现吗? 最佳答案 您的代码看起来是正确的。我们正在毫无困难地使用这个确切的模式。如果我没记错的话,Rails使用#method_missing作为属性setter,因此您的模块将优先,阻止ActiveRecord的setter。如果您正在使用ActiveSupport::Concern(参见thisblogpost),那么您的实例方法需要进入一个特殊的模块:classBlah
我正在使用Sequel构建一个愿望list系统。我有一个wishlists和itemstable和一个items_wishlists连接表(该名称是续集选择的名称)。items_wishlists表还有一个用于facebookid的额外列(因此我可以存储opengraph操作),这是一个NOTNULL列。我还有Wishlist和Item具有续集many_to_many关联的模型已建立。Wishlist类也有:selectmany_to_many关联的选项设置为select:[:items.*,:items_wishlists__facebook_action_id].有没有一种方法可以
它不等于主线程的binding,这个toplevel作用域是什么?此作用域与主线程中的binding有何不同?>ruby-e'putsTOPLEVEL_BINDING===binding'false 最佳答案 事实是,TOPLEVEL_BINDING始终引用Binding的预定义全局实例,而Kernel#binding创建的新实例>Binding每次封装当前执行上下文。在顶层,它们都包含相同的绑定(bind),但它们不是同一个对象,您无法使用==或===测试它们的绑定(bind)相等性。putsTOPLEVEL_BINDINGput