我需要将一个巨大 XML 文档转换为多个 HTML 文档。 XML如下:
<society>
<party_members>
<member id="1" first_name="" last_name="O'Brien">
<ministry_id>1</ministry_id>
<ministry_id>3</ministry_id>
</member>
<member id="2" first_name="Julia" last_name="">
<ministry_id>2</ministry_id>
</member>
<member id="3" first_name="Winston" last_name="Smith">
<ministry_id>1</ministry_id>
</member>
</party_members>
<ministries>
<ministry>
<id>1</id>
<short_title>Minitrue</short_title>
<long_title>Ministry of truth</long_title>
<concerns>News, entertainment,education and arts </concerns>
</ministry>
<ministry>
<id>2</id>
<short_title>Minipax</short_title>
<long_title>Ministry of Peace</long_title>
<concerns>War</concerns>
</ministry>
<ministry>
<id>3</id>
<short_title>Minilove</short_title>
<long_title>Ministry of Love</long_title>
<concerns>Dissidents</concerns>
</ministry>
</ministries>
</society>
党员的潜在数量可能相当大 - 数百万,而部委的数量很少,大约 300-400。对于每个党员,应该有一个包含以下内容的输出 HTML:
<html>
<body>
<h2>Party member: Winston Smith</h2>
<h3>Works in:</h3>
<div class="ministry">
<h4>Ministry of truth</h4> - Minitrue
<h5>Ministry of truth <i>concerns</i> itself with <i>News, entertainment,education and arts</i></h5>
</div>
</body>
</html>
输出文件的数量应该==党员人数。
我现在正在为 XSLT 苦苦挣扎,但无法让它工作。
请帮助我确定 XSLT 是否是这项工作的好工具,如果是,请提示我如何实现它,应该使用什么 XSLT 构造等。
当然,我可以简单地用过程语言编写迷你转换,但我正在寻找一种“应用转换模板”方法,而不是为了能够处理模板而进行的过程解析和修改其他用户进行进一步修改(CSS、格式等)。
我使用的是 ruby + nokogiri(这是一组对 libxslt 的绑定(bind)),但可以使用任何语言。
如果 XSTL 不适合这项任务,那么这里可以使用哪些其他工具,前提是我必须在几分钟内转换 ~1M 用户且内存消耗小?
额外的好处是能够并行处理。
谢谢。
最佳答案
使用纯 XSLT 1.0,您无法通过您似乎想要执行的单个转换来创建多个结果文档。为此,您需要使用 XSLT 2.0 处理器(如 Saxon 9 或 AltovaXML)和 XSLT 2.0 指令 [xsl:result-document][1] 或者您需要使用 XSLT 1.0 处理器(如 xsltproc/libxslt)它实现了 http://www.exslt.org/exsl/elements/document/index.html .如果您可以使用其中之一,那么 XSLT 非常适合您的任务。
[编辑] 分别用libxslt xsltproc 样式表代码如下
<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
xmlns:exsl="http://exslt.org/common"
exclude-result-prefixes="exsl"
extension-element-prefixes="exsl"
version="1.0">
<xsl:output method="html" indent="yes"/>
<xsl:key name="ministry-by-id" match="ministry" use="id"/>
<xsl:template match="/">
<xsl:apply-templates select="society/party_members/member" mode="doc"/>
</xsl:template>
<xsl:template match="member" mode="doc">
<exsl:document href="member{@id}.xml">
<html>
<body>
<h2>Party member: <xsl:value-of select="concat(@first_name, ' ', @last_name)"/></h2>
<h3>Works in</h3>
<xsl:apply-templates select="key('ministry-by-id', ministry_id)"/>
</body>
</html>
</exsl:document>
</xsl:template>
<xsl:template match="ministry">
<div class="ministry">
<h4><xsl:value-of select="long_title"/></h4>
<h5><xsl:value-of select="long_title"/> <i>concerns</i> itself with <i><xsl:value-of select="concerns"/></i></h5>
</div>
</xsl:template>
</xsl:stylesheet>
展示了如何使用 exsl:document 通过一次转换输出多个结果文档。它还使用 key 来提高性能。让我们知道该代码是否适用于您的大量输入数据。
关于xml - XSLT - 适合任务吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13067956/
我试图在一个项目中使用rake,如果我把所有东西都放到Rakefile中,它会很大并且很难读取/找到东西,所以我试着将每个命名空间放在lib/rake中它自己的文件中,我添加了这个到我的rake文件的顶部:Dir['#{File.dirname(__FILE__)}/lib/rake/*.rake'].map{|f|requiref}它加载文件没问题,但没有任务。我现在只有一个.rake文件作为测试,名为“servers.rake”,它看起来像这样:namespace:serverdotask:testdoputs"test"endend所以当我运行rakeserver:testid时
我有一个对象has_many应呈现为xml的子对象。这不是问题。我的问题是我创建了一个Hash包含此数据,就像解析器需要它一样。但是rails自动将整个文件包含在.........我需要摆脱type="array"和我该如何处理?我没有在文档中找到任何内容。 最佳答案 我遇到了同样的问题;这是我的XML:我在用这个:entries.to_xml将散列数据转换为XML,但这会将条目的数据包装到中所以我修改了:entries.to_xml(root:"Contacts")但这仍然将转换后的XML包装在“联系人”中,将我的XML代码修改为
如何使用RSpec::Core::RakeTask初始化RSpecRake任务?require'rspec/core/rake_task'RSpec::Core::RakeTask.newdo|t|#whatdoIputinhere?endInitialize函数记录在http://rubydoc.info/github/rspec/rspec-core/RSpec/Core/RakeTask#initialize-instance_method没有很好的记录;它只是说:-(RakeTask)initialize(*args,&task_block)AnewinstanceofRake
我写了一个非常简单的rake任务来尝试找到这个问题的根源。namespace:foodotaskbar::environmentdoputs'RUNNING'endend当在控制台中执行rakefoo:bar时,输出为:RUNNINGRUNNING当我执行任何rake任务时会发生这种情况。有没有人遇到过这样的事情?编辑上面的rake任务就是写在那个.rake文件中的所有内容。这是当前正在使用的Rakefile。requireFile.expand_path('../config/application',__FILE__)OurApp::Application.load_tasks这里
我以前没有使用过cron,所以我不能确定我这样做是对的。我想要自动化的任务似乎没有运行。我在终端中执行了这些步骤:sudogeminstall每当切换到应用程序目录无论何时。(这创建了文件schedule.rb)我将此代码添加到schedule.rb:every10.minutesdorunner"User.vote",environment=>"development"endevery:hourdorunner"Digest.rss",:environment=>"development"end我将此代码添加到deploy.rb:after"deploy:symlink","depl
如何在Rake任务中运行Capybara功能?例如:访问('http://google.com')谢谢! 最佳答案 在任务中尝试这样的事情:require'capybara'require'capybara/dsl'Capybara.current_driver=:seleniumBrowser=Class.new{includeCapybara::DSL}page=Browser.new.pagepage.visit("http://www.google.com")puts(page.html)
我正在根据Rakefile中的现有测试文件动态生成测试任务。假设您有各种以模式命名的单元测试文件test_.rb.所以我正在做的是创建一个以“测试”命名空间内的文件名命名的任务。使用下面的代码,我可以用raketest:调用所有测试require'rake/testtask'task:default=>'test:all'namespace:testdodesc"Runalltests"Rake::TestTask.new(:all)do|t|t.test_files=FileList['test_*.rb']endFileList['test_*.rb'].eachdo|task|n
我想禁用HTTP参数的自动XML解析。但我发现命令仅适用于Rails2.x,它们都不适用于3.0:config.action_controller.param_parsers.deleteMime::XML(application.rb)ActionController::Base.param_parsers.deleteMime::XMLRails3.0中的等价物是什么? 最佳答案 根据CVE-2013-0156的最新安全公告你可以将它用于Rails3.0。3.1和3.2ActionDispatch::ParamsParser::
根据thispostbyStephenHagemann,我正在尝试为我的一个rake任务编写Rspec测试.lib/tasks/retry.rake:namespace:retrydotask:message,[:message_id]=>[:environment]do|t,args|TextMessage.new.resend!(args[:message_id])endendspec/tasks/retry_spec.rb:require'rails_helper'require'rake'describe'retrynamespaceraketask'dodescribe're
我正在遍历数组中的一组标签名称,我想使用构建器打印每个标签名称,而不是求助于“我认为:builder=Nokogiri::XML::Builder.newdo|xml|fortagintagsxml.tag!tag,somevalendend会这样做,但它只是创建名称为“tag”的标签,并将标签变量作为元素的文本值。有人可以帮忙吗?这个看起来应该比较简单,我刚刚在搜索引擎上找不到答案。我可能没有以正确的方式提问。 最佳答案 尝试以下操作。如果我没记错的话,我添加了一个根节点,因为Nokogiri需要一个。builder=Nokogi