草庐IT

ruby - 如何在 Ruby 中解析 DTD 文件

coder 2024-06-24 原文

我试图将 DTD 文件转换为 YAML 文件,并且我尝试在 libXML 和 Nokogiri 中加载它,但 DTD 文件似乎不是有效的 XML 文件。只要我能解析 DTD 文件,我就可以使用任何第三方 gem。

我的转化尝试:

wget "http://xml.evernote.com/pub/enml2.dtd"
irb
require 'nokogiri'
xml = Nokogiri::XML::Document.parse('enml2.dtd')
xml.to_yaml
=> "--- !ruby/object:Nokogiri::XML::Document\ndecorators: \nnode_cache: []\nerrors:\n- !ruby/exception:Nokogiri::XML::SyntaxError\n  message: |\n    Start tag expected, '<' not found\n  domain: 1\n  code: 4\n  level: 3\n  file: \n  line: 1\n  str1: \n  str2: \n  str3: \n  int1: 0\n  column: 1\n"

任何在线 XML 验证器也会返回错误“预期开始标记”。我认为这是因为所有有效的 XML 文档都以 <?xml 开头,似乎缺少哪些 DTD 文件。这就是使我得出所有 DTD 文件都是无效 XML 文件的结论的原因,但是,XML 定义语法本身未定义为有效 XML 确实让人感到奇怪。为什么?

我正在解析 DTD 文件以从 XML 文件中删除无效属性,以了解要保留哪些属性以及要删除哪些属性,因此我需要一种解析 DTD 文件的方法。

最终,这只是尝试将 HTML 转换为 ENML(Evernote 标记语言)的一个步骤。其中涉及的步骤包括:

  • 将 HTML 转换为有效的 XHTML
  • 将正文转换为 en-note 元素
  • 根据 dtd 文件删除无效的标签和属性
  • 根据 dtd 验证 enml 文件

我目前正在考虑从“Understanding the Evernote Markup Language”中复制不允许的属性和标记并使用它来验证我的 XHTML,但我更愿意使用 DTD 作为我的源。

Nokogiri DTD 类是一个节点类,用于保存内联 DTD 节点并对其进行验证。在我的例子中,我有一个使用 SYSTEM 属性指定的外部 DTD 文件,Nokogiri does not seem to support .即使它确实有效,我得到的也只是验证。

我确实通过以下方式获得了正常工作的验证:

#dtd = XML::Dtd.new File.read Rails.root.join('lib', 'assets','enml2.dtd')
#enml_document = XML::Document.string enml
#ret = enml_document.validate dtd

我还没有尝试过 REXML。我会试一试并报告。

我正在尝试将 HTML 文档转换为使用给定 DTD 验证的 XML 文档。大多数 HTML 元素和属性在 ENML 模式中是不允许的,所以我必须去除它们,或者删除它们。我还需要知道哪些属性是允许的,哪些属性是不允许的,以便我可以正确解析 XML 并删除/清理有问题的元素和属性。

出于清理目的,我正在使用 Loofah ,但要使用它,我需要一个 tag->attributes 列表(每个标签都有哪些属性)。我没有在清理结束时对文档进行多次验证,而是循环遍历每个 XML 标记,然后清理它们。但是要知道如何 清理它们,我需要知道有效架构中支持哪些标签和元素。因此,我需要解析 DTD 文件。

据我所知,XLST 是完成这项工作的合适工具,但我不太习惯使用它。

最佳答案

However, it does feel weird to me that the xml definition syntax itself was not defined as valid XML. I'd love to know any reasons behind this.

DTD 是 XML 的前身 SGML 的遗留物,因此 DTD 不是 XML 文件实际上并不奇怪。保留 DTD 及其特定语法是创建 XML 时深思熟虑的决定。

W3C XML Schema 和 RELAX NG 等更现代的模式语言确实使用 XML 语法。


The reason I'm parsing the DTD file is that I want to remove invalid attributes from an XML file. To know which attributes to keep and which to remove, I need a way to parse the DTD file. (from question)

I am just looking for a way to parse DTD files, not just validate using them, because I want to perform custom cleanup and validation using the dtd. (from bounty text)

我真的不明白你所说的“自定义清理”是什么意思。我也看不出首先尝试解析 DTD 有什么意义。

为了查明 XML 文件中的任何元素或属性是否无效(如果它们违反了相关 DTD 中的规则),您需要使用验证 XML 解析器解析 XML 文件 .然后解析器会告诉您是否有任何需要修复的错误。

Nokogiri 基于提供验证解析器的 libxml2。它确实支持使用 <!DOCTYPE foo SYSTEM "bar.dtd"> 指定的外部 DTD。语法(如何使这项工作显示在对您所指问题的评论中:https://github.com/sparklemotion/nokogiri/issues/440#issuecomment-3031164)。

下面是如何进行验证:

require 'nokogiri'

xml = File.read("yourfile.xml")
options = Nokogiri::XML::ParseOptions::DTDLOAD   # Needed for the external DTD to be loaded
doc = Nokogiri::XML::Document.parse(xml, nil, nil, options)
puts doc.external_subset.validate(doc) 

如果此代码没有输出,则 XML 文档对 DTD 有效。

关于ruby - 如何在 Ruby 中解析 DTD 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24715001/

有关ruby - 如何在 Ruby 中解析 DTD 文件的更多相关文章

  1. ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2

    我正在学习如何使用Nokogiri,根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div

  2. ruby - 如何从 ruby​​ 中的字符串运行任意对象方法? - 2

    总的来说,我对ruby​​还比较陌生,我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础,我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用

  3. Ruby 解析字符串 - 2

    我有一个字符串input="maybe(thisis|thatwas)some((nice|ugly)(day|night)|(strange(weather|time)))"Ruby中解析该字符串的最佳方法是什么?我的意思是脚本应该能够像这样构建句子:maybethisissomeuglynightmaybethatwassomenicenightmaybethiswassomestrangetime等等,你明白了......我应该一个字符一个字符地读取字符串并构建一个带有堆栈的状态机来存储括号值以供以后计算,还是有更好的方法?也许为此目的准备了一个开箱即用的库?

  4. ruby - 使用 RubyZip 生成 ZIP 文件时设置压缩级别 - 2

    我有一个Ruby程序,它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重,我想提高压缩级别,因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗?是否有另一个允许指定压缩级别的Ruby库? 最佳答案 这是我通过查看ruby​​zip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d

  5. ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法? - 2

    类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc

  6. ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2

    很好奇,就使用ruby​​onrails自动化单元测试而言,你们正在做什么?您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您?git中的预提交Hook?只是手动调用?我完全理解测试,但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的,并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您? 最佳答案 不确定您到底想听什么,但是有几个级别的自动代码库控制:在处理某项功能时,您可以使用类似autotest的内容获得关于哪些有效,哪些无效的即时反馈。要确保您的提

  7. ruby-on-rails - rails : keeping DRY with ActiveRecord models that share similar complex attributes - 2

    这似乎应该有一个直截了当的答案,但在Google上花了很多时间,所以我找不到它。这可能是缺少正确关键字的情况。在我的RoR应用程序中,我有几个模型共享一种特定类型的字符串属性,该属性具有特殊验证和其他功能。我能想到的最接近的类似示例是表示URL的字符串。这会导致模型中出现大量重复(甚至单元测试中会出现更多重复),但我不确定如何让它更DRY。我能想到几个可能的方向...按照“validates_url_format_of”插件,但这只会让验证干给这个特殊的字符串它自己的模型,但这看起来很像重溶液为这个特殊的字符串创建一个ruby​​类,但是我如何得到ActiveRecord关联这个类模型

  8. ruby - 在 Ruby 中使用匿名模块 - 2

    假设我做了一个模块如下:m=Module.newdoclassCendend三个问题:除了对m的引用之外,还有什么方法可以访问C和m中的其他内容?我可以在创建匿名模块后为其命名吗(就像我输入“module...”一样)?如何在使用完匿名模块后将其删除,使其定义的常量不再存在? 最佳答案 三个答案:是的,使用ObjectSpace.此代码使c引用你的类(class)C不引用m:c=nilObjectSpace.each_object{|obj|c=objif(Class===objandobj.name=~/::C$/)}当然这取决于

  9. ruby - 其他文件中的 Rake 任务 - 2

    我试图在一个项目中使用rake,如果我把所有东西都放到Rakefile中,它会很大并且很难读取/找到东西,所以我试着将每个命名空间放在lib/rake中它自己的文件中,我添加了这个到我的rake文件的顶部:Dir['#{File.dirname(__FILE__)}/lib/rake/*.rake'].map{|f|requiref}它加载文件没问题,但没有任务。我现在只有一个.rake文件作为测试,名为“servers.rake”,它看起来像这样:namespace:serverdotask:testdoputs"test"endend所以当我运行rakeserver:testid时

  10. ruby - 如何在 Ruby 中顺序创建 PI - 2

    出于纯粹的兴趣,我很好奇如何按顺序创建PI,而不是在过程结果之后生成数字,而是让数字在过程本身生成时显示。如果是这种情况,那么数字可以自行产生,我可以对以前看到的数字实现垃圾收集,从而创建一个无限系列。结果只是在Pi系列之后每秒生成一个数字。这是我通过互联网筛选的结果:这是流行的计算机友好算法,类机器算法:defarccot(x,unity)xpow=unity/xn=1sign=1sum=0loopdoterm=xpow/nbreakifterm==0sum+=sign*(xpow/n)xpow/=x*xn+=2sign=-signendsumenddefcalc_pi(digits

随机推荐