我需要在两个XML文档之间进行比较。我一直在研究通常在Stack Overflow上提到的许多不同的xml-diffing工具,但是我的需求当然非常奇特,因此并不十分适合。简而言之,我不需要比较整个文档,而是要比较元素内容(虽然要考虑顺序),并且需要一种非常特定的输出格式,而不是传统的diff补丁。
请原谅这段文字,但我觉得很难解释得更短。
首先,我的局限性
该解决方案必须基于Java,或可与命令行Java应用程序集成。它也必须是免费的,因为不允许我在这上面花“真钱”,只有我的工作时间(但当然不要太多;我迫在眉睫的最后期限)...听起来很熟悉?最后,我的目标不是传统的diff补丁结果,而是两个源文件的非直接组合。
其次,我的数据描述
每个文档都包含text或section类型的节点;文本是简单的字符串,但是部分可以同时包含文本和更多部分(它们也有一个名称,作为属性给出)。此外,每个节点都用修订信息标记。
这是一个样本文件。请注意,为简便起见,这似乎是一个列表。实际上,它更像散文,也就是说,元素顺序非常重要。
<document diff="=" revision="1">
<text diff="=" revision="1">Apples</text>
<text diff="=" revision="1">Chxrries</text>
<section diff="=" revision="1" name="Blue ones">
<text diff="=" revision="1">Grapes</text>
<section diff="=" revision="1" name="More">
<text diff="=" revision="1">Blueberries</text>
</section>
<text diff="=" revision="1">Oranges</text>
</section>
</document>
<document>
<text>Apples</text>
<text>Oranges</text>
<text>Cherries</text>
<section name="Blue ones">
<text>Grapes</text>
<section name="More">
<text>Blueberries</text>
</section>
</section>
</document>
diff标签已更改(“*”表示元素内的更改),并且其revision编号已增加;不变的元素保留其旧修订信息。<document diff="*" revision="2">
<text diff="=" revision="1">Apples</text>
<text diff="+" revision="2">Oranges</text>
<text diff="-" revision="2">Chxrries</text>
<text diff="+" revision="2">Cherries</text>
<sectio diff="*" revision="1"n name="Blue ones">
<text diff="=" revision="1">Grapes</text>
<section diff="=" revision="1" name="More">
<text diff="=" revision="1">Blueberries</text>
</section>
<text diff="-" revision="2">Oranges</text>
</section>
</document>
<document diff="=" revision="1">
<text diff="=" revision="1">Apples</text>
<text diff="=" revision="1">Oranges</text>
<text diff="=" revision="1">Apples</text>
<text diff="=" revision="1">Cherries</text>
<text diff="=" revision="1">Apples</text>
</document>
<document>
<text>Apples</text>
<text>Oranges</text>
<text>Bananas</text> <--- I've only changed this
<text>Cherries</text>
<text>Apples</text>
<text>Grapes</text>
</document>
<document diff="*" revision="2">
<text diff="=" revision="1">Apples</text>
<text diff="=" revision="1">Oranges</text>
<text diff="+" revision="2">Bananas</text> <--- Addition, okay
<text diff="+" revision="2">Cherries</text> <--- Incorrectly added
<text diff="=" revision="1">Apples</text> <--- Incorrectly matches the next occurrence
<text diff="-" revision="2">Cherries</text> <--- Incorrectly removed
<text diff="-" revision="2">Apples</text> <--- Incorrectly removed
<text diff="=" revision="1">Grapes</text> <--- Back on track, after the next occurrence of the changed element
</document>
最佳答案
原来,我当时没有解决方案!同时,我已经开发了自己的专用于我的问题的xml-diff例程,因此最终得到了一个可行的解决方案。
然后,在2011年末发布了此文件:Slashdot: Researchers Expanding Diff, Grep Unix Tools
达特茅斯的计算机科学家介绍了grep和diff Unix命令行实用程序的变体,它们可以处理更复杂的数据类型。新的程序称为上下文无关Grep和Hierarchical Diff,将提供解析数据块而不是单行的功能。这项研究部分由Google和美国能源部资助。
关于java - 如何在元素级别而不是属性上区分XML?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6469271/
我有一个Ruby程序,它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重,我想提高压缩级别,因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗?是否有另一个允许指定压缩级别的Ruby库? 最佳答案 这是我通过查看rubyzip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d
出于纯粹的兴趣,我很好奇如何按顺序创建PI,而不是在过程结果之后生成数字,而是让数字在过程本身生成时显示。如果是这种情况,那么数字可以自行产生,我可以对以前看到的数字实现垃圾收集,从而创建一个无限系列。结果只是在Pi系列之后每秒生成一个数字。这是我通过互联网筛选的结果:这是流行的计算机友好算法,类机器算法:defarccot(x,unity)xpow=unity/xn=1sign=1sum=0loopdoterm=xpow/nbreakifterm==0sum+=sign*(xpow/n)xpow/=x*xn+=2sign=-signendsumenddefcalc_pi(digits
如何在buildr项目中使用Ruby?我在很多不同的项目中使用过Ruby、JRuby、Java和Clojure。我目前正在使用我的标准Ruby开发一个模拟应用程序,我想尝试使用Clojure后端(我确实喜欢功能代码)以及JRubygui和测试套件。我还可以看到在未来的不同项目中使用Scala作为后端。我想我要为我的项目尝试一下buildr(http://buildr.apache.org/),但我注意到buildr似乎没有设置为在项目中使用JRuby代码本身!这看起来有点傻,因为该工具旨在统一通用的JVM语言并且是在ruby中构建的。除了将输出的jar包含在一个独特的、仅限ruby
我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案 他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%
我有一个对象has_many应呈现为xml的子对象。这不是问题。我的问题是我创建了一个Hash包含此数据,就像解析器需要它一样。但是rails自动将整个文件包含在.........我需要摆脱type="array"和我该如何处理?我没有在文档中找到任何内容。 最佳答案 我遇到了同样的问题;这是我的XML:我在用这个:entries.to_xml将散列数据转换为XML,但这会将条目的数据包装到中所以我修改了:entries.to_xml(root:"Contacts")但这仍然将转换后的XML包装在“联系人”中,将我的XML代码修改为
我希望我的UserPrice模型的属性在它们为空或不验证数值时默认为0。这些属性是tax_rate、shipping_cost和price。classCreateUserPrices8,:scale=>2t.decimal:tax_rate,:precision=>8,:scale=>2t.decimal:shipping_cost,:precision=>8,:scale=>2endendend起初,我将所有3列的:default=>0放在表格中,但我不想要这样,因为它已经填充了字段,我想使用占位符。这是我的UserPrice模型:classUserPrice回答before_val
exe应该在我打开页面时运行。异步进程需要运行。有什么方法可以在ruby中使用两个参数异步运行exe吗?我已经尝试过ruby命令-system()、exec()但它正在等待过程完成。我需要用参数启动exe,无需等待进程完成是否有任何rubygems会支持我的问题? 最佳答案 您可以使用Process.spawn和Process.wait2:pid=Process.spawn'your.exe','--option'#Later...pid,status=Process.wait2pid您的程序将作为解释器的子进程执行。除
我有一个包含模块的模型。我想在模块中覆盖模型的访问器方法。例如:classBlah这显然行不通。有什么想法可以实现吗? 最佳答案 您的代码看起来是正确的。我们正在毫无困难地使用这个确切的模式。如果我没记错的话,Rails使用#method_missing作为属性setter,因此您的模块将优先,阻止ActiveRecord的setter。如果您正在使用ActiveSupport::Concern(参见thisblogpost),那么您的实例方法需要进入一个特殊的模块:classBlah
鉴于我有以下迁移:Sequel.migrationdoupdoalter_table:usersdoadd_column:is_admin,:default=>falseend#SequelrunsaDESCRIBEtablestatement,whenthemodelisloaded.#Atthispoint,itdoesnotknowthatusershaveais_adminflag.#Soitfails.@user=User.find(:email=>"admin@fancy-startup.example")@user.is_admin=true@user.save!ende
我正在为一个项目制作一个简单的shell,我希望像在Bash中一样解析参数字符串。foobar"helloworld"fooz应该变成:["foo","bar","helloworld","fooz"]等等。到目前为止,我一直在使用CSV::parse_line,将列分隔符设置为""和.compact输出。问题是我现在必须选择是要支持单引号还是双引号。CSV不支持超过一个分隔符。Python有一个名为shlex的模块:>>>shlex.split("Test'helloworld'foo")['Test','helloworld','foo']>>>shlex.split('Test"