php - 是什么导致 PHPExcel 在使用分块过滤器读取文件时使用如此多的内存？

coder 2024-05-03 原文

与许多其他人一样，我在读取文件(将其转换为 MySQL)时一直在为 PHPExcel 内存使用而苦苦挣扎。

当然我已经尝试过各个地方提到的通常的东西并且已经能够将内存效率提高至少 40%。这包括使用自定义分块读取器类、将分块读取器实例化移到读取循环之外等。

我的测试服务器上有 16G RAM，并在 PHP 中分配了 2G 最大内存使用量。对于 ~200K 行以下的文件，PHPExcel 将工作(缓慢但肯定)。一旦超过一定大小，脚本就会失败，只会向 shell 输出“Killed”。日志显示内核杀死了 PHP，因为它使用了太多内存。在使用 top 命令观察 CPU 和内存使用情况时，我可以看到内存空闲和交换空闲直线下降，而内存使用和交换使用飙升。

在阅读了大量有关 PHPExcel 的内容并查看了一些源文件后，我得出的结论是，每个单元格都存储了大量数据，而这些数据在仅处理文本时是不需要的。使用:

$objReader->setReadDataOnly(true);

有一点帮助，但实际上并没有那么多......但是，使用分块读取器并将 block 大小设置为较小的值然后使用 unset() 清理大变量理论上应该可行。我知道 PHPExcel 每次都必须读取整个文件，但它不应该将它存储在内存中，对吧？

这是我目前使用的代码:

<?php

date_default_timezone_set("America/New_York");
set_time_limit(7200);
ini_set('memory_limit', '2048M');

include_once("classes/PHPExcel/PHPExcel/IOFactory.php");

$inputFileName = "/PATH/TO/FILE.xlsx";
$inputFileType = PHPExcel_IOFactory::identify($inputFileName);
$worksheetName = "Sheet1";

class chunkReadFilter implements PHPExcel_Reader_IReadFilter
{
    private $_startRow = 0;
    private $_endRow = 0;

    public function __construct($startRow, $chunkSize)
    {
        $this->_startRow = $startRow;
        $this->_endRow = $startRow + $chunkSize;
    }

    public function setRows($startRow, $chunkSize)
    {
        $this->_startRow = $startRow;
        $this->_endRow   = $startRow + $chunkSize;
    }

    public function readCell($column, $row, $worksheetName = '')
    {
        if (($row == 1) || ($row >= $this->_startRow && $row < $this->_endRow))
        {
            return true;
        }
        return false;
    }
}


$objReader = PHPExcel_IOFactory::createReader($inputFileType);
$objReader->setReadDataOnly(true);

$chunkSize = 1000;

echo "Got here 1\n";

$chunkFilter = new chunkReadFilter(2,$chunkSize);


for ($startRow = 2; $startRow <= 378767; $startRow += $chunkSize)
{
    $chunkFilter->setRows($startRow, $chunkSize);
    $objReader->setReadFilter($chunkFilter);
    echo "Got here 2\n";

    $objPHPExcel = $objReader->load($inputFileName);
    echo "Got here 3\n";

    $sheet = $objPHPExcel->getSheetByName($worksheetName);
    echo "Got here 4\n";

    $highestRow = $sheet->getHighestRow(); 
    $highestColumn = $sheet->getHighestColumn();
    echo "Got here 5\n";

    $sheetData = $sheet->rangeToArray("A".$startRow.":".$highestColumn.$highestRow, NULL, TRUE, FALSE);
    print_r($sheetData);
    echo "\n\n";
}

?>

哪些输出:

[USER@BOX Directory]# php PhpExcelBigFileTest.php
Got here 1
Got here 2
Killed

这引出了一个问题:PHPExcel 是否试图将整个文件加载到内存中，而不考虑我的过滤器？如果是，为什么 PHP 不在 2G 内存使用时停止它，而是让它变得如此糟糕以至于内核不得不杀死 PHP？

最佳答案

PHPExcel 目前使用 SimpleXML 来读取基于 XML 的格式，例如 OfficeOpenXML (xlsx)、OASIS (.odc) 和 Gnumeric，而不是使用内存效率更高的 XMLReader。这意味着压缩存档中的每个文件 XML 文件都直接加载到 PHP 内存中进行解析，并构建 PHPExcel 对象。虽然单元格分块通过将单元格数量减少为读取过滤器定义的单元格数量来减少 PHPExcel 对象使用的内存，但它仍然需要将整个文件加载到内存中以便 SimpleXML 对其进行解析。

开发团队研究了将压缩存档中的数据直接流式传输到 PHP 的拉式解析器 XMLReader，初步实验表明这是非常高效的内存；但它也是一个主要的代码重写，以重构电子表格阅读器以使用此方法；由于开发资源和可用时间有限，因此这项工作并非轻而易举。

除了通过仅将单元格子集加载到 PHPExcel 对象中来减少内存外，您可能还想查看单元格缓存。这在 documentation 中有描述。并允许以减少它们占用的内存的方式存储单元格对象。提供了不同的方法来适应不同的系统，节省的内存量会根据 PHP 版本和配置而有所不同，因此您需要确定哪些方法最适合您自己的系统。使用单元格缓存也会以速度为代价。通常，SQLite 是内存效率最高的方法，但也是最慢的方法之一。

关于php - 是什么导致 PHPExcel 在使用分块过滤器读取文件时使用如此多的内存？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29020399/

有关php - 是什么导致 PHPExcel 在使用分块过滤器读取文件时使用如此多的内存？的更多相关文章

ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2
我正在学习如何使用Nokogiri，根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div
ruby - 使用 RubyZip 生成 ZIP 文件时设置压缩级别 - 2
我有一个Ruby程序，它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重，我想提高压缩级别，因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗？是否有另一个允许指定压缩级别的Ruby库？最佳答案这是我通过查看rubyzip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d
ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法？ - 2
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2
很好奇，就使用rubyonrails自动化单元测试而言，你们正在做什么？您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您？git中的预提交Hook？只是手动调用？我完全理解测试，但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的，并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您？最佳答案不确定您到底想听什么，但是有几个级别的自动代码库控制:在处理某项功能时，您可以使用类似autotest的内容获得关于哪些有效，哪些无效的即时反馈。要确保您的提
ruby - 在 Ruby 中使用匿名模块 - 2
假设我做了一个模块如下:m=Module.newdoclassCendend三个问题:除了对m的引用之外，还有什么方法可以访问C和m中的其他内容？我可以在创建匿名模块后为其命名吗(就像我输入“module...”一样)？如何在使用完匿名模块后将其删除，使其定义的常量不再存在？最佳答案三个答案:是的，使用ObjectSpace.此代码使c引用你的类(class)C不引用m:c=nilObjectSpace.each_object{|obj|c=objif(Class===objandobj.name=~/::C$/)}当然这取决于
ruby-on-rails - Ruby net/ldap 模块中的内存泄漏 - 2
作为我的Rails应用程序的一部分，我编写了一个小导入程序，它从我们的LDAP系统中吸取数据并将其塞入一个用户表中。不幸的是，与LDAP相关的代码在遍历我们的32K用户时泄漏了大量内存，我一直无法弄清楚如何解决这个问题。这个问题似乎在某种程度上与LDAP库有关，因为当我删除对LDAP内容的调用时，内存使用情况会很好地稳定下来。此外，不断增加的对象是Net::BER::BerIdentifiedString和Net::BER::BerIdentifiedArray，它们都是LDAP库的一部分。当我运行导入时，内存使用量最终达到超过1GB的峰值。如果问题存在，我需要找到一些方法来更正我的代
ruby - 使用 ruby 和 savon 的 SOAP 服务 - 2
我正在尝试使用ruby和Savon来使用网络服务。测试服务为http://www.webservicex.net/WS/WSDetails.aspx?WSID=9&CATID=2require'rubygems'require'savon'client=Savon::Client.new"http://www.webservicex.net/stockquote.asmx?WSDL"client.get_quotedo|soap|soap.body={:symbol=>"AAPL"}end返回SOAP异常。检查soap信封，在我看来soap请求没有正确的命名空间。任何人都可以建议我
python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
ruby-on-rails - Rails - 子类化模型的设计模式是什么？ - 2
我有一个模型:classItem项目有一个属性“商店”基于存储的值，我希望Item对象对特定方法具有不同的行为。Rails中是否有针对此的通用设计模式？如果方法中没有大的if-else语句，这是如何干净利落地完成的？最佳答案通常通过Single-TableInheritance. 关于ruby-on-rails-Rails-子类化模型的设计模式是什么？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.co
ruby-on-rails - 'compass watch' 是如何工作的/它是如何与 rails 一起使用的 - 2
我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗？当我运行compasswatch时，它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行？文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们？我自己编译的.sass文件编译成compiled/t

php - 是什么导致 PHPExcel 在使用分块过滤器读取文件时使用如此多的内存？

有关php - 是什么导致 PHPExcel 在使用分块过滤器读取文件时使用如此多的内存？的更多相关文章

随机推荐