草庐IT

python - 在 Python 中解析带有未声明前缀的 XML

coder 2023-08-24 原文

我正在尝试使用使用前缀的 Python 解析 XML 数据,但并非每个文件都有前缀声明。示例 XML:

<?xml version="1.0" encoding="UTF-8"?>
<item subtype="bla">
    <thing>Word</thing>
    <abc:thing2>Another Word</abc:thing2>
</item>

我一直在使用 xml.etree.ElementTree 来解析这些文件,但是只要没有正确声明前缀,ElementTree 就会抛出解析错误。 ( unbound prefix ,就在 <abc:thing2> 的开头) 搜索此错误会引导我找到建议我修复命名空间声明的解决方案。但是,我无法控制我需要使用的 XML,因此修改输入文件不是一个可行的选择。

搜索命名空间解析通常会导致我提出许多关于以命名空间不可知的方式进行搜索的问题,这不是我需要的。

我正在寻找一些方法来自动解析这些文件,即使 namespace 声明被破坏。我考虑过执行以下操作:

  • 预先告诉 ElementTree 预期的 namespace 是什么,因为我知道哪些 namespace 会出现。我找到了 register_namespace ,但这似乎不起作用。
  • 在解析之前读入完整的 DTD,看看是否能解决问题。我找不到使用 ElementTree 执行此操作的方法。
  • 告诉 ElementTree 根本不用担心 namespace 。它不应该导致我的数据出现问题,但我没有办法做到这一点
  • 使用一些其他可以 处理这个问题的解析库 - 尽管我不想安装额外的库。我很难从文档中看出是否有其他人能够解决我的问题。
  • 我目前没有看到的其他路线?

更新: 在 Har07 之后,我走上了 lxml 的道路,我试着看看这是否会让我执行我想到的不同解决方案,结果会是什么:

  • 预先告诉解析器预期的 namespace :我仍然找不到任何“官方”方法来执行此操作,但在我的搜索中,我发现了以编程方式简单地将必要的声明添加到数据的建议。 (对于不同的编程情况——不幸的是我再也找不到链接了)这对我来说似乎非常骇人听闻,但我还是试过了。它涉及将数据作为字符串加载,更改封闭元素以具有正确的 xmlns。声明,然后将其交给 lxml.etreefromstring方法。不幸的是,这还需要从字符串中删除所有对编码声明的引用。不过,它确实有效。
  • 在解析之前读入 DTD:可以使用 lxml (通过 attribute_defaultsdtd_validationload_dtd ),但不幸的是没有解决命名空间问题。
  • 讲述 lxml不用担心 namespace :可能通过 recover选项。不幸的是,这也忽略了 XML 可能被破坏的其他方式(有关详细信息,请参阅 Har07 的回答)

最佳答案

一种可能的方法是使用 ElementTree 兼容库,lxml .例如:

from lxml import etree as ElementTree

xml = """<?xml version="1.0" encoding="UTF-8"?>
<item subtype="bla">
    <thing>Word</thing>
    <abc:thing2>Another Word</abc:thing2>
</item>"""
parser = ElementTree.XMLParser(recover=True)
tree = ElementTree.fromstring(xml, parser)

thing = tree.xpath("//thing")[0]
print(ElementTree.tostring(thing))

要使用 lxml 解析格式不正确的 XML,您需要做的就是将参数 recover=True 传递给 XMLParser 的构造函数。 lxml 还完全支持 xpath 1.0,这在您需要使用更复杂的条件获取部分 XML 文档时非常有用。

更新:

我不知道 recover=True 选项可以容忍的所有 XML 错误类型。但是除了未绑定(bind)的命名空间前缀之外,我还知道另一种类型的错误:unclosed tag。 lxml 将通过自动添加相应的结束标记来修复 - 而不是忽略 - 未关闭的标记。例如,给定以下损坏的 XML:

xml = """<item subtype="bla">
    <thing>Word</thing>
    <bad>
    <abc:thing2>Another Word</abc:thing2>
</item>"""
parser = ElementTree.XMLParser(recover=True)
tree = ElementTree.fromstring(xml, parser)

print(ElementTree.tostring(tree))

lxml解析后最终输出的XML如下:

<item subtype="bla">
    <thing>Word</thing>
    <bad>
    <abc:thing2>Another Word</abc:thing2>
</bad></item>

关于python - 在 Python 中解析带有未声明前缀的 XML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30597100/

有关python - 在 Python 中解析带有未声明前缀的 XML的更多相关文章

  1. Ruby 解析字符串 - 2

    我有一个字符串input="maybe(thisis|thatwas)some((nice|ugly)(day|night)|(strange(weather|time)))"Ruby中解析该字符串的最佳方法是什么?我的意思是脚本应该能够像这样构建句子:maybethisissomeuglynightmaybethatwassomenicenightmaybethiswassomestrangetime等等,你明白了......我应该一个字符一个字符地读取字符串并构建一个带有堆栈的状态机来存储括号值以供以后计算,还是有更好的方法?也许为此目的准备了一个开箱即用的库?

  2. python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声? - 2

    关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。

  3. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  4. ruby - 用逗号、双引号和编码解析 csv - 2

    我正在使用ruby​​1.9解析以下带有MacRoman字符的csv文件#encoding:ISO-8859-1#csv_parse.csvName,main-dialogue"Marceu","Giveittohimóhe,hiswife."我做了以下解析。require'csv'input_string=File.read("../csv_parse.rb").force_encoding("ISO-8859-1").encode("UTF-8")#=>"Name,main-dialogue\r\n\"Marceu\",\"Giveittohim\x97he,hiswife.\"\

  5. ruby-on-rails - 如何从 format.xml 中删除 <hash></hash> - 2

    我有一个对象has_many应呈现为xml的子对象。这不是问题。我的问题是我创建了一个Hash包含此数据,就像解析器需要它一样。但是rails自动将整个文件包含在.........我需要摆脱type="array"和我该如何处理?我没有在文档中找到任何内容。 最佳答案 我遇到了同样的问题;这是我的XML:我在用这个:entries.to_xml将散列数据转换为XML,但这会将条目的数据包装到中所以我修改了:entries.to_xml(root:"Contacts")但这仍然将转换后的XML包装在“联系人”中,将我的XML代码修改为

  6. ruby-on-rails - active_admin 目录中的常量警告重新声明 - 2

    我正在使用active_admin,我在Rails3应用程序的应用程序中有一个目录管理,其中包含模型和页面的声明。时不时地我也有一个类,当那个类有一个常量时,就像这样:classFooBAR="bar"end然后,我在每个必须在我的Rails应用程序中重新加载一些代码的请求中收到此警告:/Users/pupeno/helloworld/app/admin/billing.rb:12:warning:alreadyinitializedconstantBAR知道发生了什么以及如何避免这些警告吗? 最佳答案 在纯Ruby中:classA

  7. ruby-on-rails - 我更新了 ruby​​ gems,现在到处都收到解析树错误和弃用警告! - 2

    简而言之错误:NOTE:Gem::SourceIndex#add_specisdeprecated,useSpecification.add_spec.Itwillberemovedonorafter2011-11-01.Gem::SourceIndex#add_speccalledfrom/opt/local/lib/ruby/site_ruby/1.8/rubygems/source_index.rb:91./opt/local/lib/ruby/gems/1.8/gems/rails-2.3.8/lib/rails/gem_dependency.rb:275:in`==':und

  8. Python 相当于 Perl/Ruby ||= - 2

    这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Pythonconditionalassignmentoperator对于这样一个简单的问题表示歉意,但是谷歌搜索||=并不是很有帮助;)Python中是否有与Ruby和Perl中的||=语句等效的语句?例如:foo="hey"foo||="what"#assignfooifit'sundefined#fooisstill"hey"bar||="yeah"#baris"yeah"另外,类似这样的东西的通用术语是什么?条件分配是我的第一个猜测,但Wikipediapage跟我想的不太一样。

  9. java - 什么相当于 ruby​​ 的 rack 或 python 的 Java wsgi? - 2

    什么是ruby​​的rack或python的Java的wsgi?还有一个路由库。 最佳答案 来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht

  10. 华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2

    华为OD机试题本篇题目:明明的随机数题目输入描述输出描述:示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od,od薪资待遇,od机试题清单华为OD机试真题大全,用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o

随机推荐