Linux/perl mmap 性能

coder 2023-06-17 原文

我正在尝试使用 mmap 优化对大型数据集的处理。数据集在千兆字节范围内。这个想法是将整个文件映射到内存中，允许多个进程同时处理数据集(只读)。但它没有按预期工作。

作为一个简单的测试，我简单地映射文件(使用 perl 的 Sys::Mmap 模块，使用我认为直接映射到底层 C 函数的“mmap”子程序)并让进程休眠。执行此操作时，代码在从 mmap 调用返回之前花费了超过一分钟的时间，尽管此测试什么也没做——甚至没有读取——来自 mmap 的文件。

我猜测，虽然 linux 可能需要在第一次 mmap 时读取整个文件，所以在第一个进程中映射文件后(当它处于休眠状态时)，我在另一个进程中调用了一个简单的测试，它尝试了读取文件的前几兆字节。

令人惊讶的是，似乎第二个进程在从 mmap 调用返回之前也花费了很多时间，与第一次 mmap 处理文件的时间大致相同。

我已经确定正在使用 MAP_SHARED，并且第一次映射文件的进程仍然处于事件状态(它没有终止，并且 mmap 没有被取消映射)。

我希望一个 mmap 文件可以让多个工作进程有效地随机访问大文件，但如果每个 mmap 调用都需要先读取整个文件，那就有点困难了。我没有测试过使用长时间运行的进程来查看第一次延迟后访问是否很快，但我预计使用 MAP_SHARED 和另一个单独的进程就足够了。

我的理论是 mmap 或多或少会立即返回，而 linux 或多或少会按需加载 block ，但我看到的行为是相反的，表明它需要在每次调用时读取整个文件到 mmap。

知道我做错了什么，或者我是否完全误解了 mmap 应该如何工作？

最佳答案

好的，找到问题了。正如所怀疑的那样，linux 或 perl 都不是罪魁祸首。要打开和访问文件，我会执行以下操作:

#!/usr/bin/perl
# Create 1 GB file if you do not have one:
# dd if=/dev/urandom of=test.bin bs=1048576 count=1000
use strict; use warnings;
use Sys::Mmap;

open (my $fh, "<test.bin")
    || die "open: $!";

my $t = time;
print STDERR "mmapping.. ";
mmap (my $mh, 0, PROT_READ, MAP_SHARED, $fh)
    || die "mmap: $!";
my $str = unpack ("A1024", substr ($mh, 0, 1024));
print STDERR " ", time-$t, " seconds\nsleeping..";

sleep (60*60);

如果您测试该代码，没有像我在原始代码中发现的那样的延迟，并且在创建最小样本之后(总是这样做，对吧!)原因突然变得显而易见。

错误是我在我的代码中将 $mh 标量视为句柄，这是一种重量轻且可以轻松移动的东西(阅读:按值传递)。事实证明，它实际上是一个 GB 长的字符串，绝对不是您想要在不创建显式引用的情况下移动的东西(perl 语言表示“指针”/句柄值)。因此，如果您需要存储在散列或类似内容中，请确保存储 \$mh，并在需要像 ${$hash->{mh} 那样使用时取消引用它}，通常作为 substr 或类似内容中的第一个参数。

关于Linux/perl mmap 性能，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1052765/

有关Linux/perl mmap 性能的更多相关文章

Ruby 的数字方法性能 - 2
我正在使用Ruby解决一些ProjectEuler问题，特别是这里我要讨论的问题25(Fibonacci数列中包含1000位数字的第一项的索引是多少？)。起初，我使用的是Ruby2.2.3，我将问题编码为:number=3a=1b=2whileb.to_s.length但后来我发现2.4.2版本有一个名为digits的方法，这正是我需要的。我转换为代码:whileb.digits.length当我比较这两种方法时，digits慢得多。时间./025/problem025.rb0.13s用户0.02s系统80%cpu0.190总计./025/problem025.rb2.19s用户0.0
ruby - Ruby 性能中的计时器 - 2
我正在寻找一个用ruby演示计时器的在线示例，并发现了下面的代码。它按预期工作，但这个简单的程序使用30Mo内存(如Windows任务管理器中所示)和太多CPU有意义吗？非常感谢deftime_blockstart_time=Time.nowThread.new{yield}Time.now-start_timeenddefrepeat_every(seconds)whiletruedotime_spent=time_block{yield}#Tohandle-vesleepinteravalsleep(seconds-time_spent)iftime_spent
ruby-on-rails - 如果条件与 &&，是否有任何性能提升 - 2
如果用户是所有者，我有一个条件来检查说删除和文章。delete_articleifuser.owner?另一种方式是user.owner?&&delete_article选择它有什么好处还是它只是一种写作风格最佳答案性能不太可能成为该声明的问题。第一个要好得多-它更容易阅读。您future的自己和其他将开始编写代码的人会为此感谢您。关于ruby-on-rails-如果条件与&&，是否有任何性能提升，我们在StackOverflow上找到一个类似的问题：
ruby - 如何找到我的 Ruby 应用程序中的性能瓶颈？ - 2
我编写了一个Ruby应用程序，它可以解析来自不同格式html、xml和csv文件的源中的大量数据。我如何找出代码的哪些区域花费的时间最长？有没有关于如何提高Ruby应用程序性能的好资源？或者您是否有任何始终遵循的性能编码标准？例如，你总是用加入你的字符串吗？output=String.newoutput或者你会使用output="#{part_one}#{part_two}\n" 最佳答案好吧，有一些众所周知的做法，例如字符串连接比“#{value}”慢得多，但是为了找出您的脚本在哪里消耗了大部分时间或比所需时间更多，您需要进行分
STM32的HAL和LL库区别和性能对比 - 2
LL库和HAL库简介LL：Low-Layer，底层库HAL：HardwareAbstractionLayer，硬件抽象层库LL库和hal库对比，很精简，这实际上是一个精简的库。LL库的配置选择如下：在STM32CUBEMX中，点击菜单的“ProjectManager”–>“AdvancedSettings”，在下面的界面中选择“AdvancedSettings”，然后在每个模块后面选择使用的库总结：1、如果使用的MCU是小容量的，那么STM32CubeLL将是最佳选择；2、如果结合可移植性和优化，使用STM32CubeHAL并使用特定的优化实现替换一些调用，可保持最大的可移植性。另外HAL和L
【Linux操作系统】——网络配置与SSH远程 - 2
Linux操作系统——网络配置与SSH远程安装完VMware与系统后，需要进行网络配置。第一个目标为进行SSH连接，可以从本机到VMware进行文件传送，首先需要进行网络配置。1.下载远程软件首先需要先下载安装一款远程软件：FinalShell或者xhell7FinalShellxhell7FinalShell下载：Windows下载http://www.hostbuf.com/downloads/finalshell_install.exemacOS下载http://www.hostbuf.com/downloads/finalshell_install.pkg2.配置CentOS网络安装好
Linux磁盘分区中物理卷（PV）、卷组（VG）、逻辑卷（LV）创建和（LVM）管理 - 2
文章目录一基础定义二创建逻辑卷2-1准备物理设备2-2创建物理卷2-3创建卷组2-4创建逻辑卷2-5创建文件系统并挂载文件三扩展卷组和缩减卷组3-1准备物理设备3-2创建物理卷3-3扩展卷组3-4查看卷组的详细信息以验证3-5缩减卷组四扩展逻辑卷4-1检查卷组是否有可用的空间4-2扩展逻辑卷4-3扩展文件系统五删除逻辑卷5-1备份数据5-2卸载文件系统5-3删除逻辑卷5-4删除卷组5-5删除物理卷六LVM逻辑卷缩容6-1缩容注意事项6-2标准缩容步骤一基础定义LVM，LogicalVolumeManger，逻辑卷管理，Linux磁盘分区管理的一种机制，建立在硬盘和分区上的一个逻辑层，提高磁盘分
ruby - 如何在 Ruby 中获取 linux 系统信息 - 2
如何在Ruby中获取linux系统(这必须适用于Fedora、Ubuntu等)的软件/硬件信息？最佳答案 Chef背后的优秀人才，拥有一颗名为Ohai的优秀gemhttps://github.com/opscode/ohai以散列形式返回系统信息，例如操作系统、内核、规范、fqdn、磁盘、空间、内存、用户、接口(interface)、sshkey等。它非常完整，非常好。它还会安装命令行二进制文件(也称为ohai)。关于ruby-如何在Ruby中获取linux系统信息，我们在Stack
ruby - rbenv:在 Linux Mint 上找不到 gem 命令 - 2
我在LinuxMint17.2上。我最近使用apt-getpurgeruby删除了ruby。然后我安装了rbenv然后rbenvinstall2.3.0所以现在，~/.rbenv/versions/2.3.0/bin/ruby存在。但是现在，我无法执行geminstallrubocop。我明白了:$geminstallrubocoprbenv:gem:commandnotfoundThe`gem'commandexistsintheseRubyversions:2.3.0但是我可以~/.rbenv/versions/2.3.0/bin/geminstallrubocop。但是，
ruby - 在 Linux 上编译 Ruby 1.9.2 所需的先决条件？ - 2
我是Ruby和RoR的新手。我有一个带有Ubuntu镜像的干净Linode实例，我想从源代码编译Ruby而不是使用apt-get。我已经在谷歌上搜索了执行此操作的说明，但经过一些尝试后，当我尝试运行一些教程示例时，我不断收到有关缺少zlib和其他一些包的错误。任何人都可以给我详细的说明(或链接)，教我如何在从源代码编译Ruby之前安装必要的必备包吗？我的目的是编译Ruby的最新稳定版本，然后安装Rubygems和Rails。提前感谢您的帮助!!! 最佳答案 Thisblogpost涵盖从源代码编译ruby所需的包和安装过程；它引

Linux/perl mmap 性能

有关Linux/perl mmap 性能的更多相关文章

随机推荐