python - 在 Python 中生成非常大的文本文件的时间性能

coder 2023-08-15 原文

我需要生成一个非常大的文本文件。每行都有一个简单的格式:

Seq_num<SPACE>num_val
12343234 759

假设我要生成一个包含 1 亿行的文件。我尝试了两种方法，令人惊讶的是它们给出了截然不同的时间性能。

For 循环超过 100 米。在每个循环中，我制作短字符串 seq_num<SPACE>num_val ，然后我将其写入文件。这种方法需要很多时间。
```
## APPROACH 1  
for seq_id in seq_ids:
    num_val=rand()
    line=seq_id+' '+num_val
    data_file.write(line)
```
For 循环超过 100 米。在每个循环中，我制作短字符串 seq_num<SPACE>num_val ，然后我将其附加到列表中。当循环结束时，我遍历列表项并将每个项目写入一个文件。这种方法花费的时间少得多。
```
## APPROACH 2  
data_lines=list()
for seq_id in seq_ids:
    num_val=rand()
    l=seq_id+' '+num_val
    data_lines.append(l)
for line in data_lines:
    data_file.write(line)
```

注意:

方法 2 有 2 个循环而不是 1 个循环。
对于方法 1 和方法 2，我都在循环中写入文件。因此这一步必须对两者相同。

所以方法 1 必须花费更少的时间。有什么提示我遗漏了什么吗？

最佳答案

很多和远少于在技术上是非常模糊的术语:)基本上如果你不能衡量它，你就不能改进它。

为简单起见，我们有一个简单的基准测试，loop1.py:

import random
from datetime import datetime

start = datetime.now()
data_file = open('file.txt', 'w')
for seq_id in range(0, 1000000):
        num_val=random.random()
        line="%i %f\n" % (seq_id, num_val)
        data_file.write(line)

end = datetime.now()
print("elapsed time %s" % (end - start))

loop2.py 带有 2 个 for 循环:

import random
from datetime import datetime

start = datetime.now()
data_file = open('file.txt', 'w')
data_lines=list()
for seq_id in range(0, 1000000):
    num_val=random.random()
    line="%i %f\n" % (seq_id, num_val)
    data_lines.append(line)
for line in data_lines:
    data_file.write(line)

end = datetime.now()
print("elapsed time %s" % (end - start))

当我在我的计算机(使用 SSD 驱动器)上运行这两个脚本时，我得到类似的东西:

$ python3 loop1.py 
elapsed time 0:00:00.684282
$ python3 loop2.py 
elapsed time 0:00:00.766182

每次测量可能略有不同，但直觉表明，第二次测量稍慢。

如果我们想优化写入时间，我们需要检查the manual how Python implements writing into files .对于文本文件，open() 函数应该使用 BufferedWriter .open 函数接受第三个参数，即缓冲区大小。这是有趣的部分:

Pass 0 to switch buffering off (only allowed in binary mode), 1 to select line buffering (only usable in text mode), and an integer > 1 to indicate the size in bytes of a fixed-size chunk buffer. When no buffering argument is given, the default buffering policy works as follows:

Binary files are buffered in fixed-size chunks; the size of the buffer is chosen using a heuristic trying to determine the underlying device’s “block size” and falling back on io.DEFAULT_BUFFER_SIZE. On many systems, the buffer will typically be 4096 or 8192 bytes long.

因此，我们可以修改 loop1.py 并使用行缓冲:

data_file = open('file.txt', 'w', 1)

事实证明这很慢:

$ python3 loop3.py 
elapsed time 0:00:02.470757

为了优化写入时间，我们可以根据需要调整缓冲区大小。首先，我们检查以字节为单位的行大小:len(line.encode('utf-8'))，这给了我 11 字节。

将缓冲区大小更新为我们预期的字节大小后:

data_file = open('file.txt', 'w', 11)

我的写入速度非常快:

elapsed time 0:00:00.669622

根据您提供的详细信息，很难估计发生了什么。也许用于估计 block 大小的启发式方法在您的计算机上效果不佳。不管怎样，如果你写的是固定行长，优化缓冲区大小很容易。您可以利用 flush() 进一步优化文件写入.

结论:通常为了更快地写入文件，您应该尝试写入与文件系统上的 block 大小相对应的大量数据 - 这正是 Python 方法 open('file.txt', 'w') 正在尝试做。在大多数情况下，您使用默认设置是安全的，微基准测试中的差异微不足道。

您正在分配大量需要由 GC 收集的字符串对象。正如 @kevmo314 所建议的，为了进行公平比较，您应该为 loop1.py 禁用 GC:

gc.disable()

因为 GC 可能会在遍历循环时尝试删除字符串对象(您没有保留任何引用)。 seconds 方法保留对所有字符串对象的引用，GC 在最后收集它们。

关于python - 在 Python 中生成非常大的文本文件的时间性能，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49266939/

中生时间性 code pre strong python algorithm performance large-data large-files

有关python - 在 Python 中生成非常大的文本文件的时间性能的更多相关文章

python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
ruby - 什么是填充的 Base64 编码字符串以及如何在 ruby 中生成它们？ - 2
我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%
ruby-on-rails - Ruby 检查日期时间是否为 iso8601 并保存 - 2
我需要检查DateTime是否采用有效的ISO8601格式。喜欢:#iso8601?我检查了ruby是否有特定方法，但没有找到。目前我正在使用date.iso8601==date来检查这个。有什么好的方法吗？编辑解释我的环境，并改变问题的范围。因此，我的项目将使用jsapiFullCalendar，这就是我需要iso8601字符串格式的原因。我想知道更好或正确的方法是什么，以正确的格式将日期保存在数据库中，或者让ActiveRecord完成它们的工作并在我需要时间信息时对其进行操作。最佳答案我不太明白你的问题。我假设您想检查
ruby-on-rails - 将 Ruby 中的日期/时间格式化为 YYYY-MM-DD HH :MM:SS - 2
这个问题在这里已经有了答案:Railsformattingdate(4个答案)关闭4年前。我想格式化Time.Now函数以显示YYYY-MM-DDHH:MM:SS而不是:“2018-03-0909:47:19+0000”该函数需要放在时间中.现在功能。require‘roo’require‘roo-xls’require‘byebug’file_name=ARGV.first||“Template.xlsx”excel_file=Roo::Spreadsheet.open(“./#{file_name}“,extension::xlsx)xml=Nokogiri::XML::Build
ruby - 查找字符串中的内容类型(数字、日期、时间、字符串等) - 2
我正在尝试解析一个CSV文件并使用SQL命令自动为其创建一个表。CSV中的第一行给出了列标题。但我需要推断每个列的类型。Ruby中是否有任何函数可以找到每个字段中内容的类型。例如，CSV行:"12012","Test","1233.22","12:21:22","10/10/2009"应该产生像这样的类型['integer','string','float','time','date']谢谢! 最佳答案 require'time'defto_something(str)if(num=Integer(str)rescueFloat(s
Python 相当于 Perl/Ruby ||= - 2
这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Pythonconditionalassignmentoperator对于这样一个简单的问题表示歉意，但是谷歌搜索||=并不是很有帮助；)Python中是否有与Ruby和Perl中的||=语句等效的语句？例如:foo="hey"foo||="what"#assignfooifit'sundefined#fooisstill"hey"bar||="yeah"#baris"yeah"另外，类似这样的东西的通用术语是什么？条件分配是我的第一个猜测，但Wikipediapage跟我想的不太一样。
java - 什么相当于 ruby 的 rack 或 python 的 Java wsgi？ - 2
什么是ruby的rack或python的Java的wsgi？还有一个路由库。最佳答案来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht
华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2
华为OD机试题本篇题目：明明的随机数题目输入描述输出描述：示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od，od薪资待遇，od机试题清单华为OD机试真题大全，用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o
python - 如何读取 MIDI 文件、更改其乐器并将其写回？ - 2
我想解析一个已经存在的.mid文件，改变它的乐器，例如从“acousticgrandpiano”到“violin”，然后将它保存回去或作为另一个.mid文件。根据我在文档中看到的内容，该乐器通过program_change或patch_change指令进行了更改，但我找不到任何在已经存在的MIDI文件中执行此操作的库.他们似乎都只支持从头开始创建的MIDI文件。最佳答案 MIDIpackage会为您完成此操作，但具体方法取决于midi文件的原始内容。一个MIDI文件由一个或多个音轨组成，每个音轨是十六个channel中任何一个上的
「Python｜Selenium｜场景案例」如何定位iframe中的元素？ - 2
本文主要介绍在使用Selenium进行自动化测试或者任务时，对于使用了iframe的页面，如何定位iframe中的元素文章目录场景描述解决方案具体代码场景描述当我们在使用Selenium进行自动化测试的时候，可能会遇到一些界面或者窗体是使用HTML的iframe标签进行承载的。对于iframe中的标签，如果直接查找是无法找到的，会抛出没有找到元素的异常。比如近在咫尺的例子就是，CSDN的登录窗体就是使用的iframe，大家可以尝试通过F12开发者模式查看到的tag_name,class_name,id或者xpath来定位中的页面元素，会抛出NoSuchElementException异常。解决

python - 在 Python 中生成非常大的文本文件的时间性能

有关python - 在 Python 中生成非常大的文本文件的时间性能的更多相关文章

随机推荐