考虑这个例子,test.php:
<?php
$mystr = "<p>Hello, με काचं ça øy jeść</p>";
var_dump($mystr);
$domdoc = new DOMDocument('1.0', 'utf-8'); //DOMDocument();
$domdoc->loadHTML($mystr); // already here corrupt UTF-8?
var_dump($domdoc);
?>
如果我使用 PHP 5.5.9 (cli) 运行它,我会进入终端:
$ php test.php
string(50) "<p>Hello, με काचं ça øy jeść</p>"
object(DOMDocument)#1 (34) {
["doctype"]=>
string(22) "(object value omitted)"
...
["actualEncoding"]=>
NULL
["encoding"]=>
NULL
["xmlEncoding"]=>
NULL
...
["textContent"]=>
string(70) "Hello, με à¤à¤¾à¤à¤ ça øy jeÅÄ"
}
显然,原始字符串是正确的 UTF-8,但 DOMDocument 的 textContent 编码不正确。
那么,如何在 DOMDocument 中获取正确的 UTF-8 内容?
最佳答案
DOM extension建立在 libxml2 上它的 HTML 解析器是为 HTML 4 制作的——默认编码是 ISO-8859-1。除非它遇到适当的元标记或 XML 声明,否则 loadHTML()将假定内容为 ISO-8859-1。
创建 DOMDocument 时指定编码正如您所做的那样,不会影响解析器的工作 - 加载 HTML(或 XML)会替换您为其构造函数提供的 xml 版本和编码。
第一次使用mb_convert_encoding()将 ASCII 范围以上的任何内容转换为其等效的 html 实体。
$domdoc->loadHTML(mb_convert_encoding($mystr, 'HTML-ENTITIES', 'UTF-8'));
或者修改指定 UTF-8 的元标记或 xml 声明。
$domdoc->loadHTML('<meta http-equiv="Content-Type" content="charset=utf-8" />' . $mystr);
$domdoc->loadHTML('<?xml encoding="UTF-8">' . $mystr);
关于php - UTF-8 与 PHP DOMDocument loadHTML?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39148170/
尝试在我的Rails应用程序中导入CSV文件时,出现错误UTF-8中的无效字节序列。一切正常,直到我添加了一个gsub方法来将其中一个CSV列与我的数据库中的一个字段进行比较。当我导入CSV文件时,我想检查每一行的地址是否包含在特定客户端的不同地址数组中。我有一个带有alt_addresses属性的客户端模型,其中包含客户端地址的几种不同可能格式。然后我有一个引用模型(如果您熟悉本地SEO,您就会知道这个术语)。引用模型没有地址字段,但它有一个nap_correct?字段(NAP代表“姓名”、“地址”、“电话号码”)。如果CSV行的名称、地址和电话号码与我在该客户的数据库中拥有的相同,
按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visitthehelpcenter指导。关闭9年前。我来自C、php和bash背景,很容易学习,因为它们都有相同的C结构,我可以将其与我已经知道的联系起来。然后2年前我学了Python并且学得很好,Python对我来说比Ruby更容易学。然后从去年开始,我一直在尝试学习Ruby,然后是Rails,我承认,直到现在我还是学不会,讽刺的是那些打着简单易学的烙印,但是对于我这样一个老练的程序员来说,我只是无法将它
我在生产环境(CentOS5.6)中遇到此错误,但在开发环境(Ubuntu11.04)中运行良好。在这两种环境中,该应用程序都使用Ruby1.9.3和Rails3.0.9,并由passenger和nginx提供服务。我的Mechanizegem版本是2.3。未找到代码转换器(UTF-8)此代码的最后一行触发它:mech=Mechanize.newpage=mech.get("http://myurl.com/login.php?login_name=a&password=b")form=page.form_with(:name=>"loginForm")form.field_with(
我无法遍历整个unicode字符范围。我到处找...我正在构建一个模糊器,并希望将所有unicode字符(一次一个)嵌入到一个url中。例如:http://www.example.com?a=\uff1c我知道有一些内置工具,但我需要更多的灵active。如果我能像下面那样做:"\u"+"ff1c"那就太好了。这是我得到的最接近的:char="\u0000"...#withiniterationchar.succ!...但在字符"\u0039"之后,即数字9,我将得到"10"而不是":" 最佳答案 您可以使用pack将数字转换为UT
我对UTF-8编码有一些问题。我在这里阅读了一些帖子,但它仍然无法正常工作。这是我的代码:#!/bin/envruby#encoding:utf-8defdeterminefile=File.open("/home/lala.txt")file.eachdo|line|puts(line)type=line.match(/DOG/)puts('aaaaa')iftype!=nilputs(type[0])breakendendend这是我文件的前3行:;?lalalalal60000065535-1362490443-0000006334-0000018467-0000000041en
我有这2个UTF-8字符串:a="N\u01b0\u0303"b="N\u1eef"它们看起来很不一样,但渲染后是一样的:irb(main):039:0>puts"#{a}-#{b}"Nữ-Nữa版本是我存储在数据库中的版本。b版本是来自浏览器的POST请求,我不知道为什么浏览器会发送不同的UTF8字符组合,而且这种情况并不总是发生,我不能'在我的开发环境中重现该问题,它发生在生产环境中并且占总请求的百分比。情况是我尝试比较它们,但它们返回false:irb(main):035:0>a==b=>false我尝试过不同的方法,例如强制编码:irb(main):022:0>c.force
我最近升级到Ruby1.9,我不能再用Sass编译任何东西。我见过说明我是否放置的解决方案@charset"utf-8";在我的.sccs文件的顶部,它会修复它。但是我仍然遇到错误。这是完整的回溯我也试过从我的CSS文件中删除任何非ascii字符,创建一个新字符等。它就是无法编译。有什么建议吗?回溯:Sassiswatchingforchanges.PressCtrl-Ctostop./home/webdev/.gem/repository/gems/sass-3.1.1/lib/sass/util.rb:496:in`encode':transcodingnotsupported(f
我正在为String类编写一个扩展方法来清理非ASCII字符。我正在清理的字符串是UTF-8。当在文件中使用非ASCII字符时,控制台不会启动,因为它将弯引号解释为常规引号。如何转义gsub中的大引号?如何编写将unicode用于大引号(例如U+201C)的gsub。使用Rails3.07和Ruby1.9.2。 最佳答案 您可以在正则表达式中使用与在双引号字符串中使用的相同的\u转义符:s.gsub(/[\u201c\u201d]/,'"')例如:>>s="\u201Cpancakes\u201d"=>"“pancakes”">>p
我正在尝试将sinatra应用程序迁移到ruby1.9我正在使用sinatra1.0、rack1.2.0和erb模板当我启动sinatra时它可以工作,但是当我从浏览器请求网页时出现此错误:Encoding::CompatibilityErrorat/incompatiblecharacterencodings:ASCII-8BITandUTF-8所有.rb文件都有这个标题:#!/usr/bin/envruby#encoding:utf-8我认为问题出在erb文件中,即使它显示它是UTF-8编码[user@localhostviews]$filehome.erbhome.erb:U
我在保存新联系人时收到以下错误。有没有办法强制转换"\xC2"以将其强制保存为UTF-8格式?c=Contact.newc.save!Encoding::UndefinedConversionError:"\xC2"fromASCII-8BITtoUTF-8:INSERTINTO"contacts"("body","created_at","email","updated_at")VALUES(?,?,?,?) 最佳答案 您的字符串采用其他编码,最有可能是iso-8859-1,因此您应该运行此命令来转换它:"\xC2".encode