草庐IT

java - 如何在元素级别而不是属性上区分XML?

coder 2024-06-28 原文

我需要在两个XML文档之间进行比较。我一直在研究通常在Stack Overflow上提到的许多不同的xml-diffing工具,但是我的需求当然非常奇特,因此并不十分适合。简而言之,我不需要比较整个文档,而是要比较元素内容(虽然要考虑顺序),并且需要一种非常特定的输出格式,而不是传统的diff补丁。

请原谅这段文字,但我觉得很难解释得更短。

首先,我的局限性

该解决方案必须基于Java,或可与命令行Java应用程序集成。它也必须是免费的,因为不允许我在这上面花“真钱”,只有我的工作时间(但当然不要太多;我迫在眉睫的最后期限)...听起来很熟悉?最后,我的目标不是传统的diff补丁结果,而是两个源文件的非直接组合。

其次,我的数据描述

每个文档都包含textsection类型的节点;文本是简单的字符串,但是部分可以同时包含文本和更多部分(它们也有一个名称,作为属性给出)。此外,每个节点都用修订信息标记。

这是一个样本文件。请注意,为简便起见,这似乎是一个列表。实际上,它更像散文,也就是说,元素顺序非常重要。

<document diff="=" revision="1">
  <text diff="=" revision="1">Apples</text>
  <text diff="=" revision="1">Chxrries</text>
  <section diff="=" revision="1" name="Blue ones">
    <text diff="=" revision="1">Grapes</text>
    <section diff="=" revision="1" name="More">
      <text diff="=" revision="1">Blueberries</text>
    </section>
    <text diff="=" revision="1">Oranges</text>
  </section>
</document>

需要将此文件与包含更改但没有修订信息的新版本进行比较(尚未!)。在此示例中,我修复了第二个元素中的拼写错误,并移动了另一个元素,但是可能会有更广泛的更改,例如添加或删除整个部分。
<document>
  <text>Apples</text>
  <text>Oranges</text>
  <text>Cherries</text>
  <section name="Blue ones">
    <text>Grapes</text>
    <section name="More">
      <text>Blueberries</text>
    </section>
  </section>
</document>

目标是创建包含所有信息的第三个XML文档。请注意,受影响元素的diff标签已更改(“*”表示元素内的更改),并且其revision编号已增加;不变的元素保留其旧修订信息。
<document diff="*" revision="2">
  <text diff="=" revision="1">Apples</text>
  <text diff="+" revision="2">Oranges</text>
  <text diff="-" revision="2">Chxrries</text>
  <text diff="+" revision="2">Cherries</text>
  <sectio diff="*" revision="1"n name="Blue ones">
    <text diff="=" revision="1">Grapes</text>
    <section diff="=" revision="1" name="More">
      <text diff="=" revision="1">Blueberries</text>
    </section>
    <text diff="-" revision="2">Oranges</text>
  </section>
</document>

因此,结果不是diff补丁,而是带有更新的修订信息的完整文档。

第三,我所做的工作-以及我的问题

我通过使用自定义java函数进行逐行比较来完成大部分工作-除了在一个特定用例中失败(即,当旧版本多次包含特定文本,而在一个特定用例中多次失败)它们的最后一个在新版本中进行了更改。这将“欺骗”比较器使旧版本的文本与以下新版本的文本匹配,而不是识别一个文本的更改。尽管从技术上讲结果是正确的,但不必要的添加和删除所带来的“噪音”掩盖了这一事实,对于人类来说,看这显然是一团糟(并且顺便说一下,此标记是为人类可读性而设计的)。现在,正是由于我的逐行方法,我发现这很难解决。

这是一个欺骗我的代码的用例示例。首先,一个简单的水果篮:
<document diff="=" revision="1">
  <text diff="=" revision="1">Apples</text>
  <text diff="=" revision="1">Oranges</text>
  <text diff="=" revision="1">Apples</text>
  <text diff="=" revision="1">Cherries</text>
  <text diff="=" revision="1">Apples</text>
</document>

现在,让我们更改第二个“苹果”项:
<document>
  <text>Apples</text>
  <text>Oranges</text>
  <text>Bananas</text>   <--- I've only changed this
  <text>Cherries</text>
  <text>Apples</text>
  <text>Grapes</text>
</document>

结果错误地变成了:
<document diff="*" revision="2">
  <text diff="=" revision="1">Apples</text>
  <text diff="=" revision="1">Oranges</text>
  <text diff="+" revision="2">Bananas</text>   <--- Addition, okay
  <text diff="+" revision="2">Cherries</text>   <--- Incorrectly added
  <text diff="=" revision="1">Apples</text>   <--- Incorrectly matches the next occurrence
  <text diff="-" revision="2">Cherries</text>   <--- Incorrectly removed
  <text diff="-" revision="2">Apples</text>   <--- Incorrectly removed
  <text diff="=" revision="1">Grapes</text>   <--- Back on track, after the next occurrence of the changed element
</document>

没错,我可能可以缓解此问题,但可以实施某种形式的先行预测,但是我无法告知 future 的发展方向,因此这听起来像是一个非常麻烦的解决方法,而不是真正的解决方案。

...因此,在最后,我迫切需要一个xml diff工具,该工具可让我分析数据内容并创建此非常特殊的输出。要么如此,要么关于如何避免这种特殊陷阱的任何提示。

如果您有任何建议或疑问,我非常希望收到您的来信。

这是对previous question的重新声明。不幸的是,我无法提供任何奖励来宣传它,但希望我在这里的新解释会更好。

对于它的价值,这是我的算法,@ LarsH链接到的DiffAlgorithm页面上似乎没有列出该算法:

比较两个列表:将它们的左手和右手分别称为lL和lR
双方。创建两个“主要”指针iL和iR并将它们设置为
每个列表的第一个元素。对于循环,请使用这些主指针
设置主要元素eL和eR,以使eL = lL(iL)和eR = lR(iR)。
比较eL和eR。如果eL匹配eR,我们可以将eL复制为
匹配,并将两个主指针都向前移动一个插槽。如果eL和eR
不匹配,创建辅助指针(iR2),将其初始化为
iR(iR2 = iR + 1)之后的插槽并扫描lR的其余部分(设置
eR2 = lR(iR2))。如果在lR的其余部分中eL不匹配,
eL必须已删除,我们可以将eL作为结果添加到
删除并仅前进主指针iL(以便下一个
比较将比较下一个eL与相同的eR)。如果找到eL
匹配eR2(在位置iR2> iR处),然后匹配范围内的所有元素
[iR,iR2 [必须已添加。然后,我们可以在其中添加每个元素
将IR的范围作为结果相加,并设置iR = iR2。我们也可以
将元素eL作为匹配项添加到结果中(因为它已被匹配
在eR2),最后在新的主指针处重复比较
职位。在迭代两个中的较短者时执行所有这些操作
清单;然后,将lL的其余部分添加为删除项,或添加
lR的其余部分作为补充。

最佳答案

原来,我当时没有解决方案!同时,我已经开发了自己的专用于我的问题的xml-diff例程,因此最终得到了一个可行的解决方案。

然后,在2011年末发布了此文件:Slashdot: Researchers Expanding Diff, Grep Unix Tools

达特茅斯的计算机科学家介绍了grep和diff Unix命令行实用程序的变体,它们可以处理更复杂的数据类型。新的程序称为上下文无关Grep和Hierarchical Diff,将提供解析数据块而不是单行的功能。这项研究部分由Google和美国能源部资助。

关于java - 如何在元素级别而不是属性上区分XML?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6469271/

有关java - 如何在元素级别而不是属性上区分XML?的更多相关文章

  1. ruby - 使用 RubyZip 生成 ZIP 文件时设置压缩级别 - 2

    我有一个Ruby程序,它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重,我想提高压缩级别,因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗?是否有另一个允许指定压缩级别的Ruby库? 最佳答案 这是我通过查看ruby​​zip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d

  2. ruby - 如何在 Ruby 中顺序创建 PI - 2

    出于纯粹的兴趣,我很好奇如何按顺序创建PI,而不是在过程结果之后生成数字,而是让数字在过程本身生成时显示。如果是这种情况,那么数字可以自行产生,我可以对以前看到的数字实现垃圾收集,从而创建一个无限系列。结果只是在Pi系列之后每秒生成一个数字。这是我通过互联网筛选的结果:这是流行的计算机友好算法,类机器算法:defarccot(x,unity)xpow=unity/xn=1sign=1sum=0loopdoterm=xpow/nbreakifterm==0sum+=sign*(xpow/n)xpow/=x*xn+=2sign=-signendsumenddefcalc_pi(digits

  3. ruby - 如何在 buildr 项目中使用 Ruby 代码? - 2

    如何在buildr项目中使用Ruby?我在很多不同的项目中使用过Ruby、JRuby、Java和Clojure。我目前正在使用我的标准Ruby开发一个模拟应用程序,我想尝试使用Clojure后端(我确实喜欢功能代码)以及JRubygui和测试套件。我还可以看到在未来的不同项目中使用Scala作为后端。我想我要为我的项目尝试一下buildr(http://buildr.apache.org/),但我注意到buildr似乎没有设置为在项目中使用JRuby代码本身!这看起来有点傻,因为该工具旨在统一通用的JVM语言并且是在ruby中构建的。除了将输出的jar包含在一个独特的、仅限ruby​​

  4. ruby - 什么是填充的 Base64 编码字符串以及如何在 ruby​​ 中生成它们? - 2

    我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案 他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%

  5. ruby-on-rails - 如何从 format.xml 中删除 <hash></hash> - 2

    我有一个对象has_many应呈现为xml的子对象。这不是问题。我的问题是我创建了一个Hash包含此数据,就像解析器需要它一样。但是rails自动将整个文件包含在.........我需要摆脱type="array"和我该如何处理?我没有在文档中找到任何内容。 最佳答案 我遇到了同样的问题;这是我的XML:我在用这个:entries.to_xml将散列数据转换为XML,但这会将条目的数据包装到中所以我修改了:entries.to_xml(root:"Contacts")但这仍然将转换后的XML包装在“联系人”中,将我的XML代码修改为

  6. ruby-on-rails - 如果为空或不验证数值,则使属性默认为 0 - 2

    我希望我的UserPrice模型的属性在它们为空或不验证数值时默认为0。这些属性是tax_rate、shipping_cost和price。classCreateUserPrices8,:scale=>2t.decimal:tax_rate,:precision=>8,:scale=>2t.decimal:shipping_cost,:precision=>8,:scale=>2endendend起初,我将所有3列的:default=>0放在表格中,但我不想要这样,因为它已经填充了字段,我想使用占位符。这是我的UserPrice模型:classUserPrice回答before_val

  7. ruby-on-rails - 如何在 ruby​​ 中使用两个参数异步运行 exe? - 2

    exe应该在我打开页面时运行。异步进程需要运行。有什么方法可以在ruby​​中使用两个参数异步运行exe吗?我已经尝试过ruby​​命令-system()、exec()但它正在等待过程完成。我需要用参数启动exe,无需等待进程完成是否有任何ruby​​gems会支持我的问题? 最佳答案 您可以使用Process.spawn和Process.wait2:pid=Process.spawn'your.exe','--option'#Later...pid,status=Process.wait2pid您的程序将作为解释器的子进程执行。除

  8. ruby-on-rails - 在混合/模块中覆盖模型的属性访问器 - 2

    我有一个包含模块的模型。我想在模块中覆盖模型的访问器方法。例如:classBlah这显然行不通。有什么想法可以实现吗? 最佳答案 您的代码看起来是正确的。我们正在毫无困难地使用这个确切的模式。如果我没记错的话,Rails使用#method_missing作为属性setter,因此您的模块将优先,阻止ActiveRecord的setter。如果您正在使用ActiveSupport::Concern(参见thisblogpost),那么您的实例方法需要进入一个特殊的模块:classBlah

  9. ruby - 如何在续集中重新加载表模式? - 2

    鉴于我有以下迁移:Sequel.migrationdoupdoalter_table:usersdoadd_column:is_admin,:default=>falseend#SequelrunsaDESCRIBEtablestatement,whenthemodelisloaded.#Atthispoint,itdoesnotknowthatusershaveais_adminflag.#Soitfails.@user=User.find(:email=>"admin@fancy-startup.example")@user.is_admin=true@user.save!ende

  10. ruby - 如何在 Ruby 中拆分参数字符串 Bash 样式? - 2

    我正在为一个项目制作一个简单的shell,我希望像在Bash中一样解析参数字符串。foobar"helloworld"fooz应该变成:["foo","bar","helloworld","fooz"]等等。到目前为止,我一直在使用CSV::parse_line,将列分隔符设置为""和.compact输出。问题是我现在必须选择是要支持单引号还是双引号。CSV不支持超过一个分隔符。Python有一个名为shlex的模块:>>>shlex.split("Test'helloworld'foo")['Test','helloworld','foo']>>>shlex.split('Test"

随机推荐