草庐IT

java - 使用 Java 将补充的 unicode 字符序列化为 XML 文档

coder 2024-03-14 原文

我正在尝试使用 U+1D49C(?,数学脚本大写 A)等补充 unicode 字符序列化 DOM 文档。创建具有这样一个字符的节点不是问题(我只是将节点值设置为 UTF-16 等效值,“\uD835\uDC9C”)。但是,在序列化时,Xalan 和 XSLTC(带有 Transformer)和 Xerces(带有 LSSerializer)都会创建无效的字符实体,例如“?”而不是“𝒜”。我尝试了 LSSerializer 的“normalize-characters”参数,但它不受支持。只有 Saxon 正确,当编码为 un​​icode 时不使用字符实体。

我无法在实践中使用 Saxon(除其他原因外,我使用 Java 小程序并且不想加载另一个 jar),因此我正在寻找具有默认 JDK 库的解决方案。是否可以从带有补充 unicode 字符的 DOM 文档中获得有效的 XML 文档?

[编辑] 我发现其他人遇到了这个问题:http://www.dragishak.com/?p=131

[edit2] 实际上,当我在类路径上没有 xerces(使用的类是 com.sun.org.apache.xml.internal.serialize.DOMSerializerImpl)时,它似乎可以与 LSSerializer 一起使用。它不适用于转换器和 com.sun.org.apache.xalan.internal.xsltc.trax.TransformerFactoryImpl。

最佳答案

由于我没有看到任何答案,而其他人似乎也有同样的问题,因此我进一步研究了...
为了找到错误的来源,我使用了 serializer源代码来自 Xalan 2.7.1 , 也用于 Xerces .org.apache.xml.serializer.dom3.LSSerializerImpl用途 org.apache.xml.serializer.ToXMLStream , 扩展 org.apache.xml.serializer.ToStream .ToStream.characters(final char chars[], final int start, final int length)处理字符,并且不正确支持 unicode 字符(注意:org.apache.xml.serializer.ToTextSream(可以与 Transformer 一起使用)在字符方法中做得更好,但它只处理纯文本并忽略所有标记;有人会认为 XML 文件是文本,但由于某种原因 ToXMLStream 不扩展 ToTextStream )。org.apache.xalan.transformer.TransformerIdentityImpl也在使用 org.apache.xml.serializer.ToXMLStream (由 org.apache.xml.serializer.SerializerFactory.getSerializer(Properties format) 返回),因此它遇到了相同的错误。ToStream正在使用 org.apache.xml.serializer.CharInfo检查字符是否应替换为 String ,因此该错误也可以在那里修复,而不是直接在 ToStream 中修复. CharInfo正在使用属性文件,org.apache.xml.serializer.XMLEntities.properties ,带有字符实体列表,因此更改此文件也可能是修复错误的一种方法,尽管到目前为止它只是为特殊的 XML 字符设计的( quotampltgt )。唯一的制作方法ToXMLStream使用与包中不同的属性文件将添加 org.apache.xml.serializer.XMLEntities.properties文件之前在类路径中,这不会很干净......
使用默认的 JDK(1.6 和 1.7),TransformerFactory返回 com.sun.org.apache.xalan.internal.xsltc.trax.TransformerImpl , 使用 com.sun.org.apache.xml.internal.serializer.ToXMLStream .在 com.sun.org.apache.xml.internal.serializer.ToStream , characters()有时会打电话 processDirty() , 调用 accumDefaultEscape() ,它可以更好地处理 unicode 字符,但实际上它似乎不起作用(也许 processDirty 不是针对 unicode 字符调用的)...com.sun.org.apache.xml.internal.serialize.DOMSerializerImpl正在使用 com.sun.org.apache.xml.internal.serialize.XMLSerializer , 支持 unicode。奇怪的是,XMLSerialize r 来自 Xerces ,但它并没有被 Xerces 使用当xalanxsltc在类路径上。这是因为 org.apache.xerces.dom.CoreDOMImplementationImpl.createLSSerializer正在使用 org.apache.xml.serializer.dom3.LSSerializerImpl当它可用而不是 org.apache.xerces.dom.DOMSerializerImpl .与 serializer.jar在类路径上,org.apache.xml.serializer.dom3.LSSerializerImpl用来。警告:xalan.jarxsltc.jar两者引用serializer.jar在 list 中,所以 serializer.jar如果它在同一目录中并且 xalan.jarxsltc.jar在类路径上!如果只是 xercesImpl.jarxml-apis.jar在类路径上,org.apache.xerces.dom.DOMSerializerImpl用作 LSSerializer , 和 unicode 字符被正确处理。
结论和解决方法:错误在于 Apache 的 org.apache.xml.serializer.ToStream类(在 JDK 中更名为 com.sun.org.apache.xml.internal.serializer.ToStream)。正确处理 unicode 字符的序列化程序是 org.apache.xml.serialize.DOMSerializerImpl (在 JDK 中更名为 com.sun.org.apache.xml.internal.serialize.DOMSerializerImpl)。但是,Apache 更喜欢 ToStream而不是 DOMSerializerImpl当它可用时,也许它在其他方面表现得更好(或者可能只是重组)。最重要的是,他们甚至弃用了 DOMSerializerImplXerces 2.9.0 .因此,以下解决方法可能会产生副作用:

  • Xerces和 Apache 的 serializer在类路径上,用“(doc.getImplementation()).createLSSerializer()”替换“new org.apache.xerces.dom.DOMSerializerImpl()
  • 当 Apache 的 serializer在类路径上(例如因为 xalan )而不是 Xerces , 尝试用“new (doc.getImplementation()).createLSSerializer()”替换“com.sun.org.apache.xml.internal.serialize.DOMSerializerImpl()”(回退是必要的,因为这个类将来可能会消失)

  • 这两种解决方法在编译时会产生警告。
    我没有 XSLT transforms 的解决方法,但这超出了问题的范围。我想可以转换到另一个 DOM 文档并使用 DOMSerializerImpl序列化。
    其他一些解决方法,对于某些人来说可能是更好的解决方案:
  • 使用 SaxonTransformer
  • 将 XML 文档与 UTF-16 一起使用编码
  • 关于java - 使用 Java 将补充的 unicode 字符序列化为 XML 文档,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11952289/

    有关java - 使用 Java 将补充的 unicode 字符序列化为 XML 文档的更多相关文章

    1. ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2

      我正在学习如何使用Nokogiri,根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div

    2. ruby - 如何从 ruby​​ 中的字符串运行任意对象方法? - 2

      总的来说,我对ruby​​还比较陌生,我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础,我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用

    3. Ruby 解析字符串 - 2

      我有一个字符串input="maybe(thisis|thatwas)some((nice|ugly)(day|night)|(strange(weather|time)))"Ruby中解析该字符串的最佳方法是什么?我的意思是脚本应该能够像这样构建句子:maybethisissomeuglynightmaybethatwassomenicenightmaybethiswassomestrangetime等等,你明白了......我应该一个字符一个字符地读取字符串并构建一个带有堆栈的状态机来存储括号值以供以后计算,还是有更好的方法?也许为此目的准备了一个开箱即用的库?

    4. ruby - 使用 RubyZip 生成 ZIP 文件时设置压缩级别 - 2

      我有一个Ruby程序,它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重,我想提高压缩级别,因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗?是否有另一个允许指定压缩级别的Ruby库? 最佳答案 这是我通过查看ruby​​zip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d

    5. ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法? - 2

      类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc

    6. ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2

      很好奇,就使用ruby​​onrails自动化单元测试而言,你们正在做什么?您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您?git中的预提交Hook?只是手动调用?我完全理解测试,但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的,并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您? 最佳答案 不确定您到底想听什么,但是有几个级别的自动代码库控制:在处理某项功能时,您可以使用类似autotest的内容获得关于哪些有效,哪些无效的即时反馈。要确保您的提

    7. ruby - 在 Ruby 中使用匿名模块 - 2

      假设我做了一个模块如下:m=Module.newdoclassCendend三个问题:除了对m的引用之外,还有什么方法可以访问C和m中的其他内容?我可以在创建匿名模块后为其命名吗(就像我输入“module...”一样)?如何在使用完匿名模块后将其删除,使其定义的常量不再存在? 最佳答案 三个答案:是的,使用ObjectSpace.此代码使c引用你的类(class)C不引用m:c=nilObjectSpace.each_object{|obj|c=objif(Class===objandobj.name=~/::C$/)}当然这取决于

    8. ruby-on-rails - 在 Rails 中将文件大小字符串转换为等效千字节 - 2

      我的目标是转换表单输入,例如“100兆字节”或“1GB”,并将其转换为我可以存储在数据库中的文件大小(以千字节为单位)。目前,我有这个:defquota_convert@regex=/([0-9]+)(.*)s/@sizes=%w{kilobytemegabytegigabyte}m=self.quota.match(@regex)if@sizes.include?m[2]eval("self.quota=#{m[1]}.#{m[2]}")endend这有效,但前提是输入是倍数(“gigabytes”,而不是“gigabyte”)并且由于使用了eval看起来疯狂不安全。所以,功能正常,

    9. ruby - 使用 ruby​​ 和 savon 的 SOAP 服务 - 2

      我正在尝试使用ruby​​和Savon来使用网络服务。测试服务为http://www.webservicex.net/WS/WSDetails.aspx?WSID=9&CATID=2require'rubygems'require'savon'client=Savon::Client.new"http://www.webservicex.net/stockquote.asmx?WSDL"client.get_quotedo|soap|soap.body={:symbol=>"AAPL"}end返回SOAP异常。检查soap信封,在我看来soap请求没有正确的命名空间。任何人都可以建议我

    10. ruby-on-rails - unicode 字符串的长度 - 2

      在我的Rails(2.3,Ruby1.8.7)应用程序中,我需要将字符串截断到一定长度。该字符串是unicode,在控制台中运行测试时,例如'א'.length,我意识到返回了双倍长度。我想要一个与编码无关的长度,以便对unicode字符串或latin1编码字符串进行相同的截断。我已经了解了Ruby的大部分unicode资料,但仍然有些一头雾水。应该如何解决这个问题? 最佳答案 Rails有一个返回多字节字符的mb_chars方法。试试unicode_string.mb_chars.slice(0,50)

    随机推荐