xml - XSLT 3.0 流式传输 (Saxon)

coder 2024-06-25 原文

我有一个很大的 XML 文件(6 GB)，其中包含这种树:

<Report>
   <Document>
      <documentType>E</documentType>
      <person>
         <firstname>John</firstname>
         <lastname>Smith</lastname>
      </person>
   </Document>
   <Document>
      [...]
   </Document>
   <Document>
      [...]
   </Document>
   [...]
</Report>

如果我在其上应用 XSLT 样式表，则会出现此错误:

Exception in thread "main" java.lang.OutOfMemoryError: Java heap space

所以我想尝试新的 XSLT 3.0 功能:流式传输，使用 Saxon 9.6 EE。我不想在文档中限制一次流式传输。我认为，我想做的事情非常接近此处描述的“突发模式”:http://saxonica.com/documentation/html/sourcedocs/streaming/burst-mode-streaming.html

这是我的 Saxon 命令行:

java -cp saxon9ee.jar net.sf.saxon.Transform -t -s:input.xml -xsl:stylesheet.xsl -o:output/output.html

这是我的 XSLT 样式表:

<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="3.0">
<xsl:mode streamable="yes" />

<xsl:template match="/">
    GLOBAL HEADER
        <xsl:iterate select="copy-of()/Report/Document" >
           DOC HEADER
           documentType: <xsl:value-of select="documentType"/>
           person/firstname: <xsl:value-of select="person/firstname"/>
           DOC FOOTER
           <xsl:next-iteration/>
        </xsl:iterate>
    GLOBAL FOOTER
</xsl:template>

</xsl:stylesheet>

但我仍然遇到同样的内存不足错误。

感谢您的帮助!

最佳答案

您的 copy-of() 正在复制上下文项，即整个文档。你要

copy-of(/Report/Document)

依次复制每个文档。或者我倾向于写它

/Report/Document/copy-of()

因为我认为它可以更清楚地说明正在发生的事情。

顺便说一句，您在这里不需要 xsl:iterate:xsl:for-each 可以很好地完成这项工作，因为一个文档的处理不依赖于任何先前文档的处理。

关于xml - XSLT 3.0 流式传输 (Saxon)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26225551/

流式 Saxon Document lt gt xml xslt streaming xslt-3.0

有关xml - XSLT 3.0 流式传输 (Saxon)的更多相关文章

ruby-on-rails - 如何从 format.xml 中删除 <hash></hash> - 2
我有一个对象has_many应呈现为xml的子对象。这不是问题。我的问题是我创建了一个Hash包含此数据，就像解析器需要它一样。但是rails自动将整个文件包含在.........我需要摆脱type="array"和我该如何处理？我没有在文档中找到任何内容。最佳答案我遇到了同样的问题；这是我的XML:我在用这个:entries.to_xml将散列数据转换为XML，但这会将条目的数据包装到中所以我修改了:entries.to_xml(root:"Contacts")但这仍然将转换后的XML包装在“联系人”中，将我的XML代码修改为
ruby-on-rails - 如何在 Rails 3 中禁用 XML 解析 - 2
我想禁用HTTP参数的自动XML解析。但我发现命令仅适用于Rails2.x，它们都不适用于3.0:config.action_controller.param_parsers.deleteMime::XML(application.rb)ActionController::Base.param_parsers.deleteMime::XMLRails3.0中的等价物是什么？最佳答案根据CVE-2013-0156的最新安全公告你可以将它用于Rails3.0。3.1和3.2ActionDispatch::ParamsParser::
ruby - 如何使用 Nokogiri::XML::Builder 生成动态标签？ - 2
我正在遍历数组中的一组标签名称，我想使用构建器打印每个标签名称，而不是求助于“我认为:builder=Nokogiri::XML::Builder.newdo|xml|fortagintagsxml.tag!tag,somevalendend会这样做，但它只是创建名称为“tag”的标签，并将标签变量作为元素的文本值。有人可以帮忙吗？这个看起来应该比较简单，我刚刚在搜索引擎上找不到答案。我可能没有以正确的方式提问。最佳答案尝试以下操作。如果我没记错的话，我添加了一个根节点，因为Nokogiri需要一个。builder=Nokogi
ruby - 如何让 Nokogiri 解析并返回 XML 文档？ - 2
这是一些奇怪的例子:#!/usr/bin/rubyrequire'rubygems'require'open-uri'require'nokogiri'print"withoutread:",Nokogiri(open('http://weblog.rubyonrails.org/')).class,"\n"print"withread:",Nokogiri(open('http://weblog.rubyonrails.org/').read).class,"\n"运行此返回:withoutread:Nokogiri::XML::Documentwithread:Nokogiri::
ruby - 模式加载时出现 Nokogiri::XML::Schema SyntaxError - 2
我正在尝试加载SAML协议(protocol)架构(具体来说:https://www.oasis-open.org/committees/download.php/3407/oasis-sstc-saml-schema-protocol-1.1.xsd)，但在执行此操作之后:schema=Nokogiri::XML::Schema(File.read('saml11_schema.xsd'))我得到这个输出:Nokogiri::XML::SyntaxErrorException:Element'{http://www.w3.org/2001/XMLSchema}element',att
ruby - 带有 header 的 Sinatra 流式响应 - 2
我想通过Sinatra应用程序代理远程文件。这需要将带有header的HTTP响应从远程源流式传输回客户端，但我不知道如何在Net::HTTP#提供的block内使用流式API时设置响应header获取响应。例如，这不会设置响应头:get'/file'dostreamdo|out|uri=URI("http://manuals.info.apple.com/en/ipad_user_guide.pdf")Net::HTTP.get_response(uri)do|file|headers'Content-Type'=>file.header['Content-Type']file.re
ruby - 使用 Ruby 将 HTTP GET 的响应主体流式传输到 HTTP POST - 2
我正在尝试下载一个大文件，然后使用Ruby将该文件发布到REST端点。该文件可能非常大，即超过可以存储在内存中甚至磁盘上的临时文件中的容量。我一直在用Net::HTTP尝试这个，但我愿意接受任何其他库(rest-client等)的解决方案，只要他们做我想做的事情。这是我尝试过的:require'net/http'source_uri=URI("https://example.org/very_large_file")source_request=Net::HTTP::Get.new(source_uri)source_http=Net::HTTP.start(source_uri.ho
ruby-on-rails - 将 Heroku 环境变量传输到 Docker 实例 - 2
我在Heroku上构建了一个必须在Docker容器内运行的RoR应用程序。为此，我使用officialDockerfile.因为它在Heroku中很常见，所以我需要一些附加组件才能使这个应用程序完全运行。在生产中，变量DATABASE_URL在我的应用程序中可用。但是，如果我尝试其他一些使用环境变量(在我的例子中是Mailtrap)的加载项，变量不会在运行时复制到实例中。所以我的问题很简单:如何让docker实例在Heroku上执行时知道环境变量？您可能会问，我已经知道我们可以在docker-compose.yml中指定一个environment指令。我想避免这种情况，以便能够通过项目
ruby-on-rails - 开始新的 Rails 3.0 项目时应该使用 ruby 1.9.2 吗？ - 2
应用将在Heroku上运行依赖包括回形针哈姆指南针设计aws-s3支持或反对的理由？对其他版本的ruby有什么建议吗？更新Heroku目前不支持1.9.2，但预计很快会基于thispost.Rails3.0正式支持1.9.2(但不支持1.9.1)，所以我决定继续使用它。更新Heroku在其beta堆栈上支持1.9.2。最佳答案我会说是的。当您准备好推出您的应用程序时(2-3个月？)，应该解决越来越多的兼容性问题。此外，如果您遇到任何问题，您可以提交补丁并为更快的1.9.2兼容性做出贡献!;)但是为了回答您的问题，考虑到您要使
Ruby AWS::S3::S3Object (aws-sdk):是否有与 aws-s3 一样的流式数据方法？ - 2
在aws-s3中，有一种方法(AWS::S3::S3Object.stream)可让您将S3上的文件流式传输到本地文件。我无法在aws-sdk中找到类似的方法。即在aws-s3中，我这样做:File.open(to_file,"wb")do|file|AWS::S3::S3Object.stream(key,region)do|chunk|file.writechunkendendAWS::S3:S3Object.read方法确实将block作为参数，但似乎没有对其执行任何操作。最佳答案 aws-sdkgem现在支持S3中对象的分

xml - XSLT 3.0 流式传输 (Saxon)

有关xml - XSLT 3.0 流式传输 (Saxon)的更多相关文章

随机推荐