Utf-8

java - Java 如何高效替换 XML 文档中的字符？

我正在寻找一种简洁高效的方法来替换XML文档中的字符。有一个为近12.000个UTF-8字符定义的替换表，其中大部分要用单个字符替换，但有些必须用两个甚至三个字符替换(例如希腊语theta应该变成TH)。这些文档可能很大(100MB+)。如何在Java中做到这一点？我想到了使用XSLT，但我不太确定这是否是最佳选择。最佳答案根据我的经验，String.replace(..)非常慢。我曾经使用该API解析100MBKML文件，但性能很差。然后，我使用Pattern.compile(..)预编译了正则表达式，并且速度更快。

xml - EDOM 解析错误(在文本中发现无效字符)/韩文字符问题

我该如何解决这个问题？Tdm=class(TDataModule)HTTP:TIdHTTP;XMLDoc:TXMLDocument;...varsStory:String;...sStory:=GetHTTP('http://localhost/MultiPlay_PHP/contentlesson.php');beginxmlDoc.XML.Text:=sStory;xmlDoc.Active:=true;StartItemNode:=XMLDoc.DocumentElement.ChildNodes.First;ANode:=StartItemNode;错误从xmlDoc.Acti

韩文 EDOM section code TXMLDocument xml delphi utf-8

.net - 为什么 xmltextreader 会自动将 html 编码的 utf8 字符转换为 utf8 字符串？

我收到一个编码为“ISO-8859-1”(Latin-1)的XML文件在文件中(以及其他标签)我有Example"content"And─现在出于某种原因，当我将其加载到XMLTextReader中并执行“XmlReader.Value”以返回值时，它返回:“content”并且─然后，当遇到只接受Latin-1编码的数据库时，显然会出错。我尝试了以下方法:转换成字节并使用Encoding.Convert以从UTF-8更改进入Latin-1(成功给了我一堆“？”相反)使用StreamReader(文件，编码。随便)将文件加载到XmlTextReader以

utf8 xmltextreader code amp section .net xml encoding

sql-server - 存储过程不喜欢 utf-16

全部，我在SQLServer2005上有一个接受XML参数的存储过程。当我执行时:execPutResultsOnDb''我得到错误:XML解析:第1行，字符39，无法切换编码但是当我这样做的时候execPutResultsOnDb''它工作得很好。有什么想法吗？最佳答案第一种情况失败，因为您声明在ASCII字符串中使用UTF-16编码XML。第二种情况很可能有效，因为您没有任何超过127的字符，因此UTF-8与ASCII无法区分。如果要将XML声明为UTF-16，则需要使用N前缀将字符串声明为UCS-2(即mostlycomp

sql-server server section code 34 xml stored-procedures

php - 另一个 PHP XML 解析错误 : "Input is not proper UTF-8, indicate encoding!"

错误:Warning:simplexml_load_string()[function.simplexml-load-string]:Entity:line3:parsererror:InputisnotproperUTF-8,indicateencoding!Bytes:0xE70x610x690x73数据库中的XML(在FF中查看源代码的输出):role_fraRoleenfrançaisRoleçenfrançais如果我没理解错的话，这个错误与old_value标签中编码的第一个ç有关。准确的说，这个错误是根据bytes:"çais"?这是我加载X

amp indicate audit gt code php xml parsing simplexml

c# - 在 UTF16 列中存储 UTF8 数据

我将XML存储在SQLServer的XML列中。SQLServer在内部以UTF-16格式存储数据。因此，存储的XML必须采用UTF-16。我的XML是utf-8格式的，它在顶部有这个声明:当我尝试插入带有UTF-8声明的xml时，我收到一个异常，说明有关编码的内容。我可以通过两种方式轻松解决此问题:删除声明或通过将声明更改为:问题我不知道删除或替换声明是否“安全”或正确。我会丢失数据，还是XML会损坏？或者我是否必须将C#中的字符串从utf-8转换为utf-16？最佳答案 C#将字符串存储在UCS-2中，这是UTF-16标准的旧

c#UTF section sql-server xml

php - 关于PHP XMLwriter()编码输入输出

我一直在到处寻找有关XMLWriter()如何对其输出进行编码的详细解释，但找不到。如果我想要特定的输出编码，例如ISO-8859-1，我想知道输入数据应该采用什么编码。我应该以相同的格式给它输入数据吗？例如这里:$xw->writeElement('garantie','Garantieàvie');*edited$xw->endElement();我应该对字符串“Garantieàvie”进行任何编码转换，还是XMLWriter()自动转换它？字符串应该是ISO-8859-1还是UTF-8？最佳答案 ShouldIdoanye

XMLwriter php UTF-8 section xml character-encoding

ruby 2 : Recognizing decomposed utf8 in XML entities (NFD)

问题问题很简单:我有包含这个值的XML穆勒这似乎是用变音符号表示u的有效XML格式，就像这样。穆勒但是到目前为止，我们尝试过的所有解析器都会生成u¨——两个不同的字符。背景这种形式的unicode(UTF-8)使用两个代码点来表示单个字符；称为NormalizedFormDecomposed或NFD，二进制形式为\303\274。大多数字符也可以表示为单个代码点和实体，包括这种情况。XML还可以包含ü或ü或ü并且在二进制中是\195\188。这称为归一化形式组合。这些中的任何一个都可以正常工作。正确回答问题所以我认为问题是:是否有一个解析器(似乎不是nokogiri)可以检测并规范化为

Recognizing decomposed code section 穆勒 ruby xml utf-8

java - 无法从我的 XML 中读取 ZÖE、DÉCOR CIARÁN 等字符？

我有一个很大的XML。它在我的XML中有一些字符，如ZÖE、DÉCORCIARÁN。我使用Java和MarkLogic作为我的数据库。我无法用这些词读取我的XML，当我删除这些词并检查它是否正常工作时。我的Java代码:DatabaseClientclient=DatabaseClientFactory.newClient(IP,PORT,DATABASE_NAME,USERNAME,PWD,Authentication.DIGEST);XMLDocumentManagerdocMgr=client.newXMLDocumentManager();DOMHandlexmlhandle=

Eacute Aacute UTF-8 strong section java xml marklogic

c# - 如何确保使用 utf-8 文件编码保存 XDocument？

我正在使用以下代码创建一个Xml文件(Serialize()返回的字节数组稍后写入到FileStream):publicbyte[]Serialize(){using(varstream=newMemoryStream()){WriteXmlToStream(stream);stream.Position=0;using(varreader=newStreamReader(stream)){stringresultString=reader.ReadToEnd();returnEncoding.UTF8.GetBytes(resultString);}}}privatevoidWrit

c#utf-8 stream 34 code xml unicode encoding

19 20 212223 24 25