python - numpy float : 10x slower than builtin in arithmetic operations?

coder 2023-05-21 原文

以下代码的时间非常奇怪:

import numpy as np
s = 0
for i in range(10000000):
    s += np.float64(1) # replace with np.float32 and built-in float

内置浮点:4.9 秒
float64:10.5 秒
float32:45.0 秒

为什么 float64 比 float 慢两倍？为什么 float32 比 float64 慢 5 倍？

有什么办法可以避免使用 np.float64 的惩罚，并让 numpy 函数返回内置 float 而不是 float64?

我发现使用 numpy.float64 比 Python 的 float 慢很多，而 numpy.float32 甚至更慢(即使我在 32 位机器上) )。

numpy.float32 在我的 32 位机器上。因此，每次我使用各种 numpy 函数(例如 numpy.random.uniform)时，我都会将结果转换为 float32(以便以 32 位精度执行进一步的操作)。

有没有办法在程序或命令行中的某处设置单个变量，并使所有 numpy 函数返回 float32 而不是 float64？

编辑#1:

numpy.float64 在算术计算中比 float 慢 10 倍。太糟糕了，即使在计算之前转换为 float 并返回，程序运行速度也快了 3 倍。为什么？有什么办法可以解决吗？

我想强调，我的时间安排不是由于以下任何原因:

函数调用
numpy 与 python float 的转换
对象的创建

我更新了我的代码，以更清楚地说明问题所在。使用新代码，我似乎看到使用 numpy 数据类型会带来十倍的性能损失:

from datetime import datetime
import numpy as np

START_TIME = datetime.now()

# one of the following lines is uncommented before execution
#s = np.float64(1)
#s = np.float32(1)
#s = 1.0

for i in range(10000000):
    s = (s + 8) * s % 2399232

print(s)
print('Runtime:', datetime.now() - START_TIME)

时间是:

float64:34.56 秒
float32:35.11 秒
float :3.53 秒

为了它，我也试过了:

从日期时间导入日期时间将 numpy 导入为 np

START_TIME = datetime.now()

s = np.float64(1)
for i in range(10000000):
    s = float(s)
    s = (s + 8) * s % 2399232
    s = np.float64(s)

print(s)
print('Runtime:', datetime.now() - START_TIME)

执行时间为13.28 s；实际上，将 float64 转换为 float 并返回比按原样使用要快 3 倍。尽管如此，转换还是要付出代价，因此总体而言，与纯 Python float 相比，它的速度要慢 3 倍以上。

我的机器是:

英特尔酷睿 2 双核 T9300 (2.5GHz)
WinXP Professional(32 位)
ActiveState Python 3.1.3.5
Numpy 1.5.1

编辑 #2:

感谢您的回答，他们帮助我了解如何处理这个问题。

但我仍然想知道为什么下面的代码使用 float64 比使用 float 慢 10 倍的确切原因(也许基于源代码)。

编辑#3:

我在 Windows 7 x64 (Intel Core i7 930 @ 3.8GHz) 下重新运行代码。

同样，代码是:

from datetime import datetime
import numpy as np

START_TIME = datetime.now()

# one of the following lines is uncommented before execution
#s = np.float64(1)
#s = np.float32(1)
#s = 1.0

for i in range(10000000):
    s = (s + 8) * s % 2399232

print(s)
print('Runtime:', datetime.now() - START_TIME)

时间是:

float64:16.1s
float32:16.1 秒
float :3.2 秒

现在两个 np float (64 或 32)都比内置 float 慢 5 倍。尽管如此，还是有很大的不同。我想弄清楚它是从哪里来的。

编辑结束

最佳答案

CPython float 以 block 的形式分配

将 numpy 标量分配与 float 类型进行比较的关键问题是 CPython 总是以 block 的形式为 float 和 int 对象分配内存大小为 N。

在内部，CPython 维护一个 block 的链表，每个 block 都足够大以容纳 N 个 float 对象。当你调用 float(1) CPython 检查当前 block 中是否有可用空间；如果不是，它分配一个新 block 。一旦它在当前 block 中有空间，它就会简单地初始化该空间并返回一个指向它的指针。

在我的机器上，每个 block 可以容纳 41 个 float 对象，因此第一个 float(1) 调用有一些开销，但接下来的 40 个运行得更快，因为内存已分配并准备就绪。

numpy.float32 与 numpy.float64 相比慢

似乎 numpy 在创建标量类型时可以采用 2 条路径:快速和慢速。这取决于标量类型是否具有 Python 基类，它可以将参数转换推迟到该基类。

出于某种原因，numpy.float32 被硬编码为采用较慢的路径 (defined by the _WORK0 macro) , 而 numpy.float64 有机会走更快的路径 (defined by the _WORK1 macro) .请注意，scalartypes.c.src 是在构建时生成 scalartypes.c 的模板。

您可以在 Cachegrind 中将其可视化。我包含了屏幕截图，显示了构造 float32 与 float64 的调用次数:

float64 走捷径

float32走慢路

更新 - 采用慢/快路径的类型可能取决于操作系统是 32 位还是 64 位。在我的测试系统 Ubuntu Lucid 64 位上，float64 类型比 float32 快 10 倍。

关于python - numpy float : 10x slower than builtin in arithmetic operations?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5956783/

有关python - numpy float : 10x slower than builtin in arithmetic operations?的更多相关文章

python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
Python 相当于 Perl/Ruby ||= - 2
这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Pythonconditionalassignmentoperator对于这样一个简单的问题表示歉意，但是谷歌搜索||=并不是很有帮助；)Python中是否有与Ruby和Perl中的||=语句等效的语句？例如:foo="hey"foo||="what"#assignfooifit'sundefined#fooisstill"hey"bar||="yeah"#baris"yeah"另外，类似这样的东西的通用术语是什么？条件分配是我的第一个猜测，但Wikipediapage跟我想的不太一样。
ruby - 为什么在 ruby 中创建 Rational 不需要新方法 - 2
这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Rubysyntaxquestion:Rational(a,b)andRational.new!(a,b)我正在阅读ruby镐书，我对创建有理数的语法感到困惑。Rational(3,4)*Rational(1,2)产生=>3/8为什么Rational不需要new方法(我还注意到例如我可以在没有new方法的情况下创建字符串)？
java - 什么相当于 ruby 的 rack 或 python 的 Java wsgi？ - 2
什么是ruby的rack或python的Java的wsgi？还有一个路由库。最佳答案来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht
华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2
华为OD机试题本篇题目：明明的随机数题目输入描述输出描述：示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od，od薪资待遇，od机试题清单华为OD机试真题大全，用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o
python - 如何读取 MIDI 文件、更改其乐器并将其写回？ - 2
我想解析一个已经存在的.mid文件，改变它的乐器，例如从“acousticgrandpiano”到“violin”，然后将它保存回去或作为另一个.mid文件。根据我在文档中看到的内容，该乐器通过program_change或patch_change指令进行了更改，但我找不到任何在已经存在的MIDI文件中执行此操作的库.他们似乎都只支持从头开始创建的MIDI文件。最佳答案 MIDIpackage会为您完成此操作，但具体方法取决于midi文件的原始内容。一个MIDI文件由一个或多个音轨组成，每个音轨是十六个channel中任何一个上的
「Python｜Selenium｜场景案例」如何定位iframe中的元素？ - 2
本文主要介绍在使用Selenium进行自动化测试或者任务时，对于使用了iframe的页面，如何定位iframe中的元素文章目录场景描述解决方案具体代码场景描述当我们在使用Selenium进行自动化测试的时候，可能会遇到一些界面或者窗体是使用HTML的iframe标签进行承载的。对于iframe中的标签，如果直接查找是无法找到的，会抛出没有找到元素的异常。比如近在咫尺的例子就是，CSDN的登录窗体就是使用的iframe，大家可以尝试通过F12开发者模式查看到的tag_name,class_name,id或者xpath来定位中的页面元素，会抛出NoSuchElementException异常。解决
python ffmpeg 使用 pyav 转换一组图像到视频 - 2
2022/8/4更新支持加入水印水印必须包含透明图像，并且水印图像大小要等于原图像的大小pythonconvert_image_to_video.py-f30-mwatermark.pngim_dirout.mkv2022/6/21更新让命令行参数更加易用新的命令行使用方法pythonconvert_image_to_video.py-f30im_dirout.mkvFFMPEG命令行转换一组JPG图像到视频时，是将这组图像视为MJPG流。我需要转换一组PNG图像到视频，FFMPEG就不认了。pyav内置了ffmpeg库，不需要系统带有ffmpeg工具因此我使用ffmpeg的python包装p
Python 刷Leetcode题库，顺带学英语单词（31） - 2
ValidPalindromeGivenastring,determineifitisapalindrome,consideringonlyalphanumericcharactersandignoringcases. [#125]Example:"Aman,aplan,acanal:Panama"isapalindrome."raceacar"isnotapalindrome.Haveyouconsiderthatthestringmightbeempty?Thisisagoodquestiontoaskduringaninterview.Forthepurposeofthisproblem
python - 是否可以使用 Ruby 或 Python 禁用 anchor /引用来发出有效的 YAML？ - 2
是否可以在PyYAML或Ruby的Psych引擎中禁用创建anchor和引用(并有效地显式列出冗余数据)？也许我在网上搜索时遗漏了一些东西，但在Psych中似乎没有太多可用的选项，而且我也无法确定PyYAML是否允许这样做.基本原理是我必须序列化一些数据并将其以可读的形式传递给一个不是真正的技术同事进行手动验证。有些数据是多余的，但我需要以最明确的方式列出它们以提高可读性(anchor和引用是提高效率的好概念，但不是人类可读性)。Ruby和Python是我选择的工具，但如果有其他一些相当简单的方法来“展开”YAML文档，它可能就可以了。最佳答案

python - numpy float : 10x slower than builtin in arithmetic operations?

有关python - numpy float : 10x slower than builtin in arithmetic operations?的更多相关文章

随机推荐