PHP:以最快或/和最有效的方式编写大量小文件

coder 2024-04-09 原文

想象一下，一个事件将有 10,000 到 30,000 个文件，每个文件大约 4kb。

而且，将有几个事件同时运行。 10 顶。

目前，我将采用通常的方式:file_put_contents .

它完成了工作，但速度很慢，而且它的 php 进程一直占用 100% 的 CPU 使用率。
fopen, fwrite, fclose ，嗯，结果类似于file_put_contents .

我试过一些异步 io 的东西，比如 php eio和 swoole .

它更快，但一段时间后会产生“太多打开的文件”。
php -r 'echo exec("ulimit -n");'结果是 800000。

任何帮助，将不胜感激!

好吧，这有点尴尬……你们是对的，瓶颈在于它如何生成文件内容……

最佳答案

我假设您不能遵循 SomeDude 关于使用数据库的非常好的建议，并且您已经执行了可以执行的硬件调整(例如增加缓存、增加 RAM 以避免交换颠簸、购买 SSD 驱动器)。

我会尝试将文件生成卸载到不同的进程。

你可以例如安装Redis，将文件内容存入keystore，非常快。然后，一个不同的并行进程可以从 keystore 中提取数据，将其删除，然后写入磁盘文件。

这会从主要 PHP 进程中删除所有磁盘 I/O，并让您监控积压(有多少 key 对仍未刷新:理想情况下为零)并专注于内容生成中的瓶颈。您可能需要一些额外的 RAM。

另一方面，这与写入 RAM 磁盘没有太大区别。您还可以将数据输出到 RAM 磁盘，它可能会更快:

# As root
mkdir /mnt/ramdisk
mount -t tmpfs -o size=512m tmpfs /mnt/ramdisk
mkdir /mnt/ramdisk/temp 
mkdir /mnt/ramdisk/ready
# Change ownership and permissions as appropriate

在 PHP 中:

$fp = fopen("/mnt/ramdisk/temp/{$file}", "w");
fwrite($fp, $data);
fclose($fp);
rename("/mnt/ramdisk/temp/{$file}", "/mnt/ramdisk/ready/{$file}");

然后有一个不同的进程(crontab？还是持续运行守护进程？)将文件从 RAM 磁盘的“就绪”目录移动到磁盘，然后删除 RAM 就绪文件。

文件系统

所需时间创建文件 取决于目录中的文件数量，具有各种依赖函数，它们本身依赖于文件系统。 ext4、ext3、zfs、btrfs 等将表现出不同的行为。具体来说，如果文件数量超过某个数量，您可能会遇到明显的减速。

因此，您可能想尝试在一个目录中定时创建大量示例文件，看看这个时间是如何随着数量的增长而增长的。请记住，访问不同目录会降低性能，因此不建议立即使用大量子目录。

<?php
    $payload    = str_repeat("Squeamish ossifrage. \n", 253);
    $time       = microtime(true);
    for ($i = 0; $i < 10000; $i++) {
        $fp = fopen("file-{$i}.txt", "w");
        fwrite($fp, $payload);
        fclose($fp);
    }
    $time = microtime(true) - $time;
    for ($i = 0; $i < 10000; $i++) {
        unlink("file-{$i}.txt");
    }
    print "Elapsed time: {$time} s\n";

在我的系统上创建 10000 个文件需要 0.42 秒，但创建 100000 个文件 (10x) 需要 5.9 秒，而不是 4.2 秒。另一方面，在 8 个单独的目录中创建这些文件的八分之一(我发现的最佳折衷方案)需要 6.1 秒，因此不值得。

但是假设创建 300000 个文件需要 25 秒而不是 17.7 秒；将这些文件分成 10 个目录可能需要 22 秒，因此值得拆分目录。

并行处理:r 策略

TL;DR 这在我的系统上效果不佳，尽管您的里程可能会有所不同 .如果要做的操作是长篇 (在这里它们不是)并且与主进程的绑定(bind)不同，那么将它们各自卸载到不同的线程可能是有利的，前提是您不会产生太多线程。

您将需要 pcntl functions安装。

$payload    = str_repeat("Squeamish ossifrage. \n", 253);

$time       = microtime(true);
for ($i = 0; $i < 100000; $i++) {
    $pid = pcntl_fork();
    switch ($pid) {
        case 0:
            // Parallel execution.
            $fp = fopen("file-{$i}.txt", "w");
            fwrite($fp, $payload);
            fclose($fp);
            exit();
        case -1:
            echo 'Could not fork Process.';
            exit();
        default:
            break;
    }
}
$time = microtime(true) - $time;
print "Elapsed time: {$time} s\n";

(花哨的名字 r strategy 取自生物学)。

在这个例子中，如果与每个 child 需要做的事情相比，产卵时间是灾难性的。因此，整体处理时间猛增。有了更复杂的子级，事情会变得更好，但你必须小心不要把脚本变成一个 fork 炸弹。

如果可能的话，一种可能性是将要创建的文件分成每个 10% 的块。然后每个 child 都会更改其工作目录 使用 chdir()，并在不同的目录中创建其文件。这将消除在不同子目录中写入文件的惩罚(每个子目录在其当前目录中写入)，同时从写入更少的文件中受益。在这种情况下，在子级中使用非常轻量级的 I/O 绑定(bind)操作，该策略再次不值得(我的执行时间增加了一倍)。

并行处理:K策略

TL; DR 这更复杂，但效果很好......在我的系统上。您的里程可能会有所不同 .
虽然 r 策略涉及许多“即发即弃”的线程，但 K 策略需要一个有限的(可能是一个) child ，并且需要谨慎地培养。在这里，我们将所有文件的创建卸载到一个并行线程，并通过套接字与其通信。

$payload    = str_repeat("Squeamish ossifrage. \n", 253);

$sockets = array();
$domain = (strtoupper(substr(PHP_OS, 0, 3)) == 'WIN' ? AF_INET : AF_UNIX);
if (socket_create_pair($domain, SOCK_STREAM, 0, $sockets) === false) {
   echo "socket_create_pair failed. Reason: ".socket_strerror(socket_last_error());
}
$pid = pcntl_fork();
if ($pid == -1) {
    echo 'Could not fork Process.';
} elseif ($pid) {
    /*parent*/
    socket_close($sockets[0]);
} else {
    /*child*/
    socket_close($sockets[1]);
    for (;;) {
        $cmd = trim(socket_read($sockets[0], 5, PHP_BINARY_READ));
        if (false === $cmd) {
            die("ERROR\n");
        }
        if ('QUIT' === $cmd) {
            socket_write($sockets[0], "OK", 2);
            socket_close($sockets[0]);
            exit(0);
        }
        if ('FILE' === $cmd) {
            $file   = trim(socket_read($sockets[0], 20, PHP_BINARY_READ));
            $len    = trim(socket_read($sockets[0], 8, PHP_BINARY_READ));
            $data   = socket_read($sockets[0], $len, PHP_BINARY_READ);
            $fp     = fopen($file, "w");
            fwrite($fp, $data);
            fclose($fp);
            continue;
        }
        die("UNKNOWN COMMAND: {$cmd}");
    }
}

$time       = microtime(true);
for ($i = 0; $i < 100000; $i++) {
    socket_write($sockets[1], sprintf("FILE %20.20s%08.08s", "file-{$i}.txt", strlen($payload)));
    socket_write($sockets[1], $payload, strlen($payload));
    //$fp = fopen("file-{$i}.txt", "w");
    //fwrite($fp, $payload);
    //fclose($fp);
}
$time = microtime(true) - $time;
print "Elapsed time: {$time} s\n";

socket_write($sockets[1], "QUIT\n", 5);
$ok = socket_read($sockets[1], 2, PHP_BINARY_READ);
socket_close($sockets[1]);

这在很大程度上取决于系统配置 .例如，在单处理器、单核、非线程 CPU 上，这很疯狂——您至少会使总运行时间增加一倍，但更有可能它会慢三到十倍。

所以这绝对不是在旧系统上拉皮条的方法。

在现代多线程 CPU 上，假设主要内容创建循环受 CPU 限制，您可能会遇到相反的情况 - 脚本运行速度可能快十倍。

在我的系统上，上面的“ fork ”解决方案的运行速度比 少一点快三倍 .我期待更多，但你来了。

当然，性能是否值得增加复杂性和维护，还有待评估。

坏消息

在进行上述实验时，我得出的结论是，在 Linux 中配置合理且性能良好的机器上创建文件是 快如 hell ，因此不仅很难挤出更多性能，而且如果您遇到缓慢，很可能与文件无关。尝试详细说明您如何创建该内容。

关于PHP:以最快或/和最有效的方式编写大量小文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39436975/

编写最快 br 34 strong php io

有关PHP:以最快或/和最有效的方式编写大量小文件的更多相关文章

ruby - 如何以所有可能的方式将字符串拆分为长度最多为 3 的连续子字符串？ - 2
我试图获取一个长度在1到10之间的字符串，并输出将字符串分解为大小为1、2或3的连续子字符串的所有可能方式。例如:输入:123456将整数分割成单个字符，然后继续查找组合。该代码将返回以下所有数组。[1,2,3,4,5,6][12,3,4,5,6][1,23,4,5,6][1,2,34,5,6][1,2,3,45,6][1,2,3,4,56][12,34,5,6][12,3,45,6][12,3,4,56][1,23,45,6][1,2,34,56][1,23,4,56][12,34,56][123,4,5,6][1,234,5,6][1,2,345,6][1,2,3,456][123
ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby - 在 Ruby 中编写命令行实用程序 - 2
我想用ruby编写一个小的命令行实用程序并将其作为gem分发。我知道安装后，Guard、Sass和Thor等某些gem可以从命令行自行运行。为了让gem像二进制文件一样可用，我需要在我的gemspec中指定什么。最佳答案 Gem::Specification.newdo|s|...s.executable='name_of_executable'...endhttp://docs.rubygems.org/read/chapter/20 关于ruby-在Ruby中编写命令行实用程序
ruby - 如何进行排列以有效地定制输出 - 2
这是一道面试题，我没有答对，但还是很好奇怎么解。你有N个人的大家庭，分别是1,2,3,...,N岁。你想给你的大家庭拍张照片。所有的家庭成员都排成一排。“我是家里的friend，建议家庭成员安排如下:”1岁的家庭成员坐在这一排的最左边。每两个坐在一起的家庭成员的年龄相差不得超过2岁。输入:整数N，1≤N≤55。输出:摄影师可以拍摄的照片数量。示例->输入:4，输出:4符合条件的数组:[1,2,3,4][1,2,4,3][1,3,2,4][1,3,4,2]另一个例子:输入:5输出:6符合条件的数组:[1,2,3,4,5][1,2,3,5,4][1,2,4,3,5][1,2,4,5,3][
ruby-on-rails - 正确的 Rails 2.1 做事方式 - 2
question的一些答案关于redirect_to让我想到了其他一些问题。基本上，我正在使用Rails2.1编写博客应用程序。我一直在尝试自己完成大部分工作(因为我对Rails有所了解)，但在需要时会引用Internet上的教程和引用资料。我设法让一个简单的博客正常运行，然后我尝试添加评论。靠我自己，我设法让它进入了可以从script/console添加评论的阶段，但我无法让表单正常工作。我遵循的其中一个教程建议在帖子Controller中创建一个“评论”操作，以添加评论。我的问题是:这是“标准”方式吗？我的另一个问题的答案之一似乎暗示应该有一个CommentsController参
ruby - 用 Ruby 编写一个简单的网络服务器 - 2
我想在Ruby中创建一个用于开发目的的极其简单的Web服务器(不，不想使用现成的解决方案)。代码如下:#!/usr/bin/rubyrequire'socket'server=TCPServer.new('127.0.0.1',8080)whileconnection=server.acceptheaders=[]length=0whileline=connection.getsheaders想法是从命令行运行这个脚本，提供另一个脚本，它将在其标准输入上获取请求，并在其标准输出上返回完整的响应。到目前为止一切顺利，但事实证明这真的很脆弱，因为它在第二个请求上中断并出现错误:/usr/b
【鸿蒙应用开发系列】- 获取系统设备信息以及版本API兼容调用方式 - 2
在应用开发中，有时候我们需要获取系统的设备信息，用于数据上报和行为分析。那在鸿蒙系统中，我们应该怎么去获取设备的系统信息呢，比如说获取手机的系统版本号、手机的制造商、手机型号等数据。1、获取方式这里分为两种情况，一种是设备信息的获取，一种是系统信息的获取。1.1、获取设备信息获取设备信息，鸿蒙的SDK包为我们提供了DeviceInfo类，通过该类的一些静态方法，可以获取设备信息，DeviceInfo类的包路径为：ohos.system.DeviceInfo.具体的方法如下：ModifierandTypeMethodDescriptionstatic StringgetAbiList()Obt
python - 是否可以使用 Ruby 或 Python 禁用 anchor /引用来发出有效的 YAML？ - 2
是否可以在PyYAML或Ruby的Psych引擎中禁用创建anchor和引用(并有效地显式列出冗余数据)？也许我在网上搜索时遗漏了一些东西，但在Psych中似乎没有太多可用的选项，而且我也无法确定PyYAML是否允许这样做.基本原理是我必须序列化一些数据并将其以可读的形式传递给一个不是真正的技术同事进行手动验证。有些数据是多余的，但我需要以最明确的方式列出它们以提高可读性(anchor和引用是提高效率的好概念，但不是人类可读性)。Ruby和Python是我选择的工具，但如果有其他一些相当简单的方法来“展开”YAML文档，它可能就可以了。最佳答案
ruby - 鸭子输入字符串、符号和数组的优雅方式？ - 2
这是针对我无法破坏的现有公共(public)API，但我确实希望对其进行扩展。目前，该方法采用字符串或符号或任何其他在作为第一个参数传递给send时有意义的内容我想添加发送字符串、符号等列表的功能。我可以只使用is_a吗？数组，但还有其他发送列表的方法，这不是很像ruby。我将调用列表中的map，所以第一个倾向是使用respond_to?:map。但是字符串也会响应:map，所以这行不通。最佳答案如何将它们全部视为数组？String的行为与仅包含String的Array相同:deffoo(obj,arg)[*arg].eac
ruby-on-rails - 如何为空白字段编写 rspec？ [Rails3.1] - 2
我使用rails3.1+rspec和factorygirl。我对必填字段(validates_presence_of)的验证工作正常。我如何让测试将该事实用作“成功”而不是“失败”规范是:describe"Addanindustrywithnoname"docontext"Unabletocreatearecordwhenthenameisblank"dosubjectdoind=Factory.create(:industry_name_blank)endit{shouldbe_invalid}endend但是我失败了:Failures:1)Addanindustrywithnona

PHP:以最快或/和最有效的方式编写大量小文件

有关PHP:以最快或/和最有效的方式编写大量小文件的更多相关文章

随机推荐