问题问题很简单:我有包含这个值的XML穆勒这似乎是用变音符号表示u的有效XML格式,就像这样。穆勒但是到目前为止,我们尝试过的所有解析器都会生成u¨——两个不同的字符。背景这种形式的unicode(UTF-8)使用两个代码点来表示单个字符;称为NormalizedFormDecomposed或NFD,二进制形式为\303\274。大多数字符也可以表示为单个代码点和实体,包括这种情况。XML还可以包含ü或ü或ü并且在二进制中是\195\188。这称为归一化形式组合。这些中的任何一个都可以正常工作。正确回答问题所以我认为问题是:是否有一个解析器(似乎不是nokogiri)可以检测并规范化为