草庐IT

xml - Perl XML::SAX 部分解析

coder 2024-06-21 原文

是否可以使用 XML::SAX::Expat 的处理程序类暂停和恢复解析? ?

文件很大,我们正在将节点读入内存来渲染表格。我们只想一次渲染一个部分,否则我们会耗尽内存。所以我们需要停止解析文件,在程序的其他部分做一些事情,然后在下一页继续。

我可以想出几种方法来实现这一点(见下文),但它们都感觉像是 hack。有我可以使用的原生软件吗?

可能的选择:

  • 跟踪 $current_node 计数器并将其传递给处理程序构造函数,每个 我们解析文件的时间会在存储数据之前跳过这么多节点。
  • 与上面类似,但使用 tell/seek 跳过每个新调用
  • 预处理以将文件拆分为多个大小正确的文件。

前两个效率低,最后一个乱。有更好的选择吗?


编辑以解释有关文件结构的更多信息以及替代方案为何不起作用。

除了一些其他数据外,大部分结构如下。

<DETAILS>
    <DETAIL>
        <ITEM1>...</ITEM1>
        <ITEM2>...</ITEM2>
        ...
    </DETAIL>
    <DETAIL>
        <ITEM1>...</ITEM1>
        <ITEM2>...</ITEM2>
        ...
    </DETAIL>
    ...
</DETAILS>

对于有问题的文件每个<DETAIL> node 的大小大约为 240 字节,这并不多,但我们有超过 180,000 个(这是无法处理的较小文件之一)。 LibXML当它碰到这个结构时失败,因为它试图将它全部解析到内存中(我们仅限于 32 位系统,并且 Perl 的内存中还有其他重要的结构)。

更新到最新版本和一些代码调整后,XML::Twig将解析文档,但我仍然有同样的问题 - 是否可以暂停并稍后继续?

我不控制整个逻辑流,所以当主应用程序准备好下一页时,它会调用我的对象来获取它。我需要能够输出一大块数据并等待下一个请求。这可能由 fork 处理但我不确定是否需要这样做。


显示程序流程的示例。

这是一种简化(尤其是 while 循环)。实际程序具有复杂的文档页面嵌套结构,其中包含多个表示页面元素的对象。它是通过使用网络服务调用定义的,也是数据驱动的,因此我们不能为此硬编码任何假设。

我看不出如何将回调放入其中 - 处理必须在表格之后恢复以发出剩余的页面元素,开始一个新页面,并在恢复表格之前发出该新页面的前几个页面元素。

use strict;
use warnings;

use XML::Twig;

my $table = Table->new('details.xml');

my $table_finished = 0;
while (!$table_finished) {
    # emit some data e.g. page header
    # ...
    # emit the table - 2 data rows per page, for testing
    $table_finished = $table->partial_emit(2);
    # emit some data e.g. page footer
    # ...
}

exit;

package Table;

sub new {
    my ($class, $filename) = @_;

    my $self = {
        '_file' => $filename,
    };

    bless ($self, $class);

    my $sub_ref = $self->can('process_table_row');

    $self->{'_twig'} = XML::Twig->new( 
                twig_handlers => {
                    'DETAIL'    => sub {
                        $sub_ref->($self, @_),
                        },
                });     

    return $self;
}

sub partial_emit {
    my ($this, $rows) = @_;
    $this->{'_rows_emitted'} = 0;
    $this->{'_limit'} = $rows;
    $this->{'_finished'} = 1;

    # we want this to return after parsing part of the file if it is large
    $this->{'_twig'}->parsefile($this->{'_file'});

    # should be zero if we returned early
    return $this->{'_finished'};
}

sub process_table_row {
        my ($this, $twig, $elt) = @_;

        # increase row count
        $this->{'_rows_emitted'}++;

        # handle data - doesn't matter what it does here
        print $elt->text, "\n";

        # we've done as many as we want - how to stop processing and return to main loop?
        if ($this->{'_rows_emitted'} >= $this->{'_limit'}) {
            print "Limit reached\n";
            # Ideally we'd set this, tell Twig to stop for a while, and carry on, but in my test script this causes an infinite loop
            #$this->{'_finished'} = 0;
        }       
}

1;

还有另一个编辑...似乎在调整我的搜索后我偶然发现了我一直想要的东西。 XML::SAX::Expat::Incremental有一个 parse_more完全满足我需要的例程。我需要等待几天才能对完整数据集进行测试,但如下所示的简短测试有效。

Table类可以这样做:

$self->{'_parser'} = XML::SAX::Expat::Incremental->new( Handler => MyHandler->new($self) );

哪里MyHandler是一个简单的 XML::SAX现在可以访问 Table 的样式处理程序.

调用 Table::partial_emit会做这样的事情:

my $buf;
my $bytes_to_read = 50; # small for testing
while (read($this->{'_fh'}, $buf, $bytes_to_read)) {
    $this->{'_parser'}->parse_more($buf);
    # MyHandler will increment this based on the number of rows (DETAIL nodes) encountered
    if ($this->{'_rows_emitted'} >= $rows) {
        $this->{'_finished'} = 0;
        last;
    }
}

以上可能在边缘情况下有一些错误,但它对我的测试工作正常。稍后我需要对其进行适当的压力测试,看看它是否已准备好投入生产。

最佳答案

XML::Twig模块旨在在这种情况下表现良好。

它的副标题是“A perl module for processing huge XML documents in tree mode”

关于xml - Perl XML::SAX 部分解析,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27615094/

有关xml - Perl XML::SAX 部分解析的更多相关文章

  1. Ruby 解析字符串 - 2

    我有一个字符串input="maybe(thisis|thatwas)some((nice|ugly)(day|night)|(strange(weather|time)))"Ruby中解析该字符串的最佳方法是什么?我的意思是脚本应该能够像这样构建句子:maybethisissomeuglynightmaybethatwassomenicenightmaybethiswassomestrangetime等等,你明白了......我应该一个字符一个字符地读取字符串并构建一个带有堆栈的状态机来存储括号值以供以后计算,还是有更好的方法?也许为此目的准备了一个开箱即用的库?

  2. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  3. ruby - 用逗号、双引号和编码解析 csv - 2

    我正在使用ruby​​1.9解析以下带有MacRoman字符的csv文件#encoding:ISO-8859-1#csv_parse.csvName,main-dialogue"Marceu","Giveittohimóhe,hiswife."我做了以下解析。require'csv'input_string=File.read("../csv_parse.rb").force_encoding("ISO-8859-1").encode("UTF-8")#=>"Name,main-dialogue\r\n\"Marceu\",\"Giveittohim\x97he,hiswife.\"\

  4. ruby-on-rails - 如何从 format.xml 中删除 <hash></hash> - 2

    我有一个对象has_many应呈现为xml的子对象。这不是问题。我的问题是我创建了一个Hash包含此数据,就像解析器需要它一样。但是rails自动将整个文件包含在.........我需要摆脱type="array"和我该如何处理?我没有在文档中找到任何内容。 最佳答案 我遇到了同样的问题;这是我的XML:我在用这个:entries.to_xml将散列数据转换为XML,但这会将条目的数据包装到中所以我修改了:entries.to_xml(root:"Contacts")但这仍然将转换后的XML包装在“联系人”中,将我的XML代码修改为

  5. ruby-on-rails - 我更新了 ruby​​ gems,现在到处都收到解析树错误和弃用警告! - 2

    简而言之错误:NOTE:Gem::SourceIndex#add_specisdeprecated,useSpecification.add_spec.Itwillberemovedonorafter2011-11-01.Gem::SourceIndex#add_speccalledfrom/opt/local/lib/ruby/site_ruby/1.8/rubygems/source_index.rb:91./opt/local/lib/ruby/gems/1.8/gems/rails-2.3.8/lib/rails/gem_dependency.rb:275:in`==':und

  6. ruby - 用 YAML.load 解析 json 安全吗? - 2

    我正在使用ruby2.1.0我有一个json文件。例如:test.json{"item":[{"apple":1},{"banana":2}]}用YAML.load加载这个文件安全吗?YAML.load(File.read('test.json'))我正在尝试加载一个json或yaml格式的文件。 最佳答案 YAML可以加载JSONYAML.load('{"something":"test","other":4}')=>{"something"=>"test","other"=>4}JSON将无法加载YAML。JSON.load("

  7. ruby - 如何使用 Nokogiri 解析纯 HTML 表格? - 2

    我想用Nokogiri解析HTML页面。页面的一部分有一个表,它没有使用任何特定的ID。是否可以提取如下内容:Today,3,455,34Today,1,1300,3664Today,10,100000,3444,Yesterday,3454,5656,3Yesterday,3545,1000,10Yesterday,3411,36223,15来自这个HTML:TodayYesterdayQntySizeLengthLengthSizeQnty345534345456563113003664354510001010100000344434113622315

  8. python - 帮我找到合适的 ruby​​/python 解析器生成器 - 2

    我使用的第一个解析器生成器是Parse::RecDescent,它的指南/教程很棒,但它最有用的功能是它的调试工具,特别是tracing功能(通过将$RD_TRACE设置为1来激活)。我正在寻找可以帮助您调试其规则的解析器生成器。问题是,它必须用python或ruby​​编写,并且具有详细模式/跟踪模式或非常有用的调试技术。有人知道这样的解析器生成器吗?编辑:当我说调试时,我并不是指调试python或ruby​​。我指的是调试解析器生成器,查看它在每一步都在做什么,查看它正在读取的每个字符,它试图匹配的规则。希望你明白这一点。赏金编辑:要赢得赏金,请展示一个解析器生成器框架,并说明它的

  9. ruby - 如何用 Nokogiri 解析连续的标签? - 2

    我有这样的HTML代码:Label1Value1Label2Value2...我的代码不起作用。doc.css("first").eachdo|item|label=item.css("dt")value=item.css("dd")end显示所有首先标记,然后标记标签,我需要“标签:值” 最佳答案 首先,您的HTML应该有和中的元素:Label1Value1Label2Value2...但这不会改变您解析它的方式。你想找到s并遍历它们,然后在每个你可以使用next_element得到;像这样:doc=Nokogiri::HTML(

  10. ruby-on-rails - 如何在 Rails 3 中禁用 XML 解析 - 2

    我想禁用HTTP参数的自动XML解析。但我发现命令仅适用于Rails2.x,它们都不适用于3.0:config.action_controller.param_parsers.deleteMime::XML(application.rb)ActionController::Base.param_parsers.deleteMime::XMLRails3.0中的等价物是什么? 最佳答案 根据CVE-2013-0156的最新安全公告你可以将它用于Rails3.0。3.1和3.2ActionDispatch::ParamsParser::

随机推荐