java - 如何在元素级别而不是属性上区分XML？

coder 2024-06-28 原文

我需要在两个XML文档之间进行比较。我一直在研究通常在Stack Overflow上提到的许多不同的xml-diffing工具，但是我的需求当然非常奇特，因此并不十分适合。简而言之，我不需要比较整个文档，而是要比较元素内容(虽然要考虑顺序)，并且需要一种非常特定的输出格式，而不是传统的diff补丁。

请原谅这段文字，但我觉得很难解释得更短。

首先，我的局限性

该解决方案必须基于Java，或可与命令行Java应用程序集成。它也必须是免费的，因为不允许我在这上面花“真钱”，只有我的工作时间(但当然不要太多；我迫在眉睫的最后期限)...听起来很熟悉？最后，我的目标不是传统的diff补丁结果，而是两个源文件的非直接组合。

其次，我的数据描述

每个文档都包含text或section类型的节点；文本是简单的字符串，但是部分可以同时包含文本和更多部分(它们也有一个名称，作为属性给出)。此外，每个节点都用修订信息标记。

这是一个样本文件。请注意，为简便起见，这似乎是一个列表。实际上，它更像散文，也就是说，元素顺序非常重要。

<document diff="=" revision="1">
  <text diff="=" revision="1">Apples</text>
  <text diff="=" revision="1">Chxrries</text>
  <section diff="=" revision="1" name="Blue ones">
    <text diff="=" revision="1">Grapes</text>
    <section diff="=" revision="1" name="More">
      <text diff="=" revision="1">Blueberries</text>
    </section>
    <text diff="=" revision="1">Oranges</text>
  </section>
</document>

需要将此文件与包含更改但没有修订信息的新版本进行比较(尚未!)。在此示例中，我修复了第二个元素中的拼写错误，并移动了另一个元素，但是可能会有更广泛的更改，例如添加或删除整个部分。

<document>
  <text>Apples</text>
  <text>Oranges</text>
  <text>Cherries</text>
  <section name="Blue ones">
    <text>Grapes</text>
    <section name="More">
      <text>Blueberries</text>
    </section>
  </section>
</document>

目标是创建包含所有信息的第三个XML文档。请注意，受影响元素的diff标签已更改(“*”表示元素内的更改)，并且其revision编号已增加；不变的元素保留其旧修订信息。

<document diff="*" revision="2">
  <text diff="=" revision="1">Apples</text>
  <text diff="+" revision="2">Oranges</text>
  <text diff="-" revision="2">Chxrries</text>
  <text diff="+" revision="2">Cherries</text>
  <sectio diff="*" revision="1"n name="Blue ones">
    <text diff="=" revision="1">Grapes</text>
    <section diff="=" revision="1" name="More">
      <text diff="=" revision="1">Blueberries</text>
    </section>
    <text diff="-" revision="2">Oranges</text>
  </section>
</document>

因此，结果不是diff补丁，而是带有更新的修订信息的完整文档。

第三，我所做的工作-以及我的问题

我通过使用自定义java函数进行逐行比较来完成大部分工作-除了在一个特定用例中失败(即，当旧版本多次包含特定文本，而在一个特定用例中多次失败)它们的最后一个在新版本中进行了更改。这将“欺骗”比较器使旧版本的文本与以下新版本的文本匹配，而不是识别一个文本的更改。尽管从技术上讲结果是正确的，但不必要的添加和删除所带来的“噪音”掩盖了这一事实，对于人类来说，看这显然是一团糟(并且顺便说一下，此标记是为人类可读性而设计的)。现在，正是由于我的逐行方法，我发现这很难解决。

这是一个欺骗我的代码的用例示例。首先，一个简单的水果篮:

<document diff="=" revision="1">
  <text diff="=" revision="1">Apples</text>
  <text diff="=" revision="1">Oranges</text>
  <text diff="=" revision="1">Apples</text>
  <text diff="=" revision="1">Cherries</text>
  <text diff="=" revision="1">Apples</text>
</document>

现在，让我们更改第二个“苹果”项:

<document>
  <text>Apples</text>
  <text>Oranges</text>
  <text>Bananas</text>   <--- I've only changed this
  <text>Cherries</text>
  <text>Apples</text>
  <text>Grapes</text>
</document>

结果错误地变成了:

<document diff="*" revision="2">
  <text diff="=" revision="1">Apples</text>
  <text diff="=" revision="1">Oranges</text>
  <text diff="+" revision="2">Bananas</text>   <--- Addition, okay
  <text diff="+" revision="2">Cherries</text>   <--- Incorrectly added
  <text diff="=" revision="1">Apples</text>   <--- Incorrectly matches the next occurrence
  <text diff="-" revision="2">Cherries</text>   <--- Incorrectly removed
  <text diff="-" revision="2">Apples</text>   <--- Incorrectly removed
  <text diff="=" revision="1">Grapes</text>   <--- Back on track, after the next occurrence of the changed element
</document>

没错，我可能可以缓解此问题，但可以实施某种形式的先行预测，但是我无法告知 future 的发展方向，因此这听起来像是一个非常麻烦的解决方法，而不是真正的解决方案。

...因此，在最后，我迫切需要一个xml diff工具，该工具可让我分析数据内容并创建此非常特殊的输出。要么如此，要么关于如何避免这种特殊陷阱的任何提示。

如果您有任何建议或疑问，我非常希望收到您的来信。

这是对previous question的重新声明。不幸的是，我无法提供任何奖励来宣传它，但希望我在这里的新解释会更好。

对于它的价值，这是我的算法，@ LarsH链接到的DiffAlgorithm页面上似乎没有列出该算法:

比较两个列表:将它们的左手和右手分别称为lL和lR
双方。创建两个“主要”指针iL和iR并将它们设置为
每个列表的第一个元素。对于循环，请使用这些主指针
设置主要元素eL和eR，以使eL = lL(iL)和eR = lR(iR)。
比较eL和eR。如果eL匹配eR，我们可以将eL复制为
匹配，并将两个主指针都向前移动一个插槽。如果eL和eR
不匹配，创建辅助指针(iR2)，将其初始化为
iR(iR2 = iR + 1)之后的插槽并扫描lR的其余部分(设置
eR2 = lR(iR2))。如果在lR的其余部分中eL不匹配，
eL必须已删除，我们可以将eL作为结果添加到
删除并仅前进主指针iL(以便下一个
比较将比较下一个eL与相同的eR)。如果找到eL
匹配eR2(在位置iR2> iR处)，然后匹配范围内的所有元素
[iR，iR2 [必须已添加。然后，我们可以在其中添加每个元素
将IR的范围作为结果相加，并设置iR = iR2。我们也可以
将元素eL作为匹配项添加到结果中(因为它已被匹配
在eR2)，最后在新的主指针处重复比较
职位。在迭代两个中的较短者时执行所有这些操作
清单;然后，将lL的其余部分添加为删除项，或添加
lR的其余部分作为补充。

最佳答案

原来，我当时没有解决方案!同时，我已经开发了自己的专用于我的问题的xml-diff例程，因此最终得到了一个可行的解决方案。

然后，在2011年末发布了此文件:Slashdot: Researchers Expanding Diff, Grep Unix Tools

达特茅斯的计算机科学家介绍了grep和diff Unix命令行实用程序的变体，它们可以处理更复杂的数据类型。新的程序称为上下文无关Grep和Hierarchical Diff，将提供解析数据块而不是单行的功能。这项研究部分由Google和美国能源部资助。

关于java - 如何在元素级别而不是属性上区分XML？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/6469271/

何在级别 text 34 lt java xml diff

有关java - 如何在元素级别而不是属性上区分XML？的更多相关文章

ruby - 使用 RubyZip 生成 ZIP 文件时设置压缩级别 - 2
我有一个Ruby程序，它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重，我想提高压缩级别，因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗？是否有另一个允许指定压缩级别的Ruby库？最佳答案这是我通过查看rubyzip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d
ruby - 如何在 Ruby 中顺序创建 PI - 2
出于纯粹的兴趣，我很好奇如何按顺序创建PI，而不是在过程结果之后生成数字，而是让数字在过程本身生成时显示。如果是这种情况，那么数字可以自行产生，我可以对以前看到的数字实现垃圾收集，从而创建一个无限系列。结果只是在Pi系列之后每秒生成一个数字。这是我通过互联网筛选的结果:这是流行的计算机友好算法，类机器算法:defarccot(x,unity)xpow=unity/xn=1sign=1sum=0loopdoterm=xpow/nbreakifterm==0sum+=sign*(xpow/n)xpow/=x*xn+=2sign=-signendsumenddefcalc_pi(digits
ruby - 如何在 buildr 项目中使用 Ruby 代码？ - 2
如何在buildr项目中使用Ruby？我在很多不同的项目中使用过Ruby、JRuby、Java和Clojure。我目前正在使用我的标准Ruby开发一个模拟应用程序，我想尝试使用Clojure后端(我确实喜欢功能代码)以及JRubygui和测试套件。我还可以看到在未来的不同项目中使用Scala作为后端。我想我要为我的项目尝试一下buildr(http://buildr.apache.org/)，但我注意到buildr似乎没有设置为在项目中使用JRuby代码本身!这看起来有点傻，因为该工具旨在统一通用的JVM语言并且是在ruby中构建的。除了将输出的jar包含在一个独特的、仅限ruby
ruby - 什么是填充的 Base64 编码字符串以及如何在 ruby 中生成它们？ - 2
我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%
ruby-on-rails - 如何从 format.xml 中删除 <hash></hash> - 2
我有一个对象has_many应呈现为xml的子对象。这不是问题。我的问题是我创建了一个Hash包含此数据，就像解析器需要它一样。但是rails自动将整个文件包含在.........我需要摆脱type="array"和我该如何处理？我没有在文档中找到任何内容。最佳答案我遇到了同样的问题；这是我的XML:我在用这个:entries.to_xml将散列数据转换为XML，但这会将条目的数据包装到中所以我修改了:entries.to_xml(root:"Contacts")但这仍然将转换后的XML包装在“联系人”中，将我的XML代码修改为
ruby-on-rails - 如果为空或不验证数值，则使属性默认为 0 - 2
我希望我的UserPrice模型的属性在它们为空或不验证数值时默认为0。这些属性是tax_rate、shipping_cost和price。classCreateUserPrices8,:scale=>2t.decimal:tax_rate,:precision=>8,:scale=>2t.decimal:shipping_cost,:precision=>8,:scale=>2endendend起初，我将所有3列的:default=>0放在表格中，但我不想要这样，因为它已经填充了字段，我想使用占位符。这是我的UserPrice模型:classUserPrice回答before_val
ruby-on-rails - 如何在 ruby 中使用两个参数异步运行 exe？ - 2
exe应该在我打开页面时运行。异步进程需要运行。有什么方法可以在ruby中使用两个参数异步运行exe吗？我已经尝试过ruby命令-system()、exec()但它正在等待过程完成。我需要用参数启动exe，无需等待进程完成是否有任何rubygems会支持我的问题？最佳答案您可以使用Process.spawn和Process.wait2:pid=Process.spawn'your.exe','--option'#Later...pid,status=Process.wait2pid您的程序将作为解释器的子进程执行。除
ruby-on-rails - 在混合/模块中覆盖模型的属性访问器 - 2
我有一个包含模块的模型。我想在模块中覆盖模型的访问器方法。例如:classBlah这显然行不通。有什么想法可以实现吗？最佳答案您的代码看起来是正确的。我们正在毫无困难地使用这个确切的模式。如果我没记错的话，Rails使用#method_missing作为属性setter，因此您的模块将优先，阻止ActiveRecord的setter。如果您正在使用ActiveSupport::Concern(参见thisblogpost)，那么您的实例方法需要进入一个特殊的模块:classBlah
ruby - 如何在续集中重新加载表模式？ - 2
鉴于我有以下迁移:Sequel.migrationdoupdoalter_table:usersdoadd_column:is_admin,:default=>falseend#SequelrunsaDESCRIBEtablestatement,whenthemodelisloaded.#Atthispoint,itdoesnotknowthatusershaveais_adminflag.#Soitfails.@user=User.find(:email=>"admin@fancy-startup.example")@user.is_admin=true@user.save!ende
ruby - 如何在 Ruby 中拆分参数字符串 Bash 样式？ - 2
我正在为一个项目制作一个简单的shell，我希望像在Bash中一样解析参数字符串。foobar"helloworld"fooz应该变成:["foo","bar","helloworld","fooz"]等等。到目前为止，我一直在使用CSV::parse_line，将列分隔符设置为""和.compact输出。问题是我现在必须选择是要支持单引号还是双引号。CSV不支持超过一个分隔符。Python有一个名为shlex的模块:>>>shlex.split("Test'helloworld'foo")['Test','helloworld','foo']>>>shlex.split('Test"

java - 如何在元素级别而不是属性上区分XML？

有关java - 如何在元素级别而不是属性上区分XML？的更多相关文章

随机推荐