php - UTF-8 与 PHP DOMDocument loadHTML？

coder 2024-04-28 原文

考虑这个例子，test.php:

<?php
$mystr = "<p>Hello, με काचं  ça øy jeść</p>";
var_dump($mystr);
$domdoc = new DOMDocument('1.0', 'utf-8'); //DOMDocument();
$domdoc->loadHTML($mystr); // already here corrupt UTF-8?
var_dump($domdoc);
?>

如果我使用 PHP 5.5.9 (cli) 运行它，我会进入终端:

$ php test.php 
string(50) "<p>Hello, με काचं  ça øy jeść</p>"
object(DOMDocument)#1 (34) {
  ["doctype"]=>
  string(22) "(object value omitted)"
...
  ["actualEncoding"]=>
  NULL
  ["encoding"]=>
  NULL
  ["xmlEncoding"]=>
  NULL
...
  ["textContent"]=>
  string(70) "Hello, Î¼Îµ ï»¿à¤à¤¾à¤à¤  Ã§a Ã¸y jeÅÄ"
}

显然，原始字符串是正确的 UTF-8，但 DOMDocument 的 textContent 编码不正确。

那么，如何在 DOMDocument 中获取正确的 UTF-8 内容？

最佳答案

DOM extension建立在 libxml2 上它的 HTML 解析器是为 HTML 4 制作的——默认编码是 ISO-8859-1。除非它遇到适当的元标记或 XML 声明，否则 loadHTML()将假定内容为 ISO-8859-1。

创建 DOMDocument 时指定编码正如您所做的那样，不会影响解析器的工作 - 加载 HTML(或 XML)会替换您为其构造函数提供的 xml 版本和编码。

解决方法:

第一次使用mb_convert_encoding()将 ASCII 范围以上的任何内容转换为其等效的 html 实体。

$domdoc->loadHTML(mb_convert_encoding($mystr, 'HTML-ENTITIES', 'UTF-8'));

或者修改指定 UTF-8 的元标记或 xml 声明。

$domdoc->loadHTML('<meta http-equiv="Content-Type" content="charset=utf-8" />' . $mystr);

$domdoc->loadHTML('<?xml encoding="UTF-8">' . $mystr);

关于php - UTF-8 与 PHP DOMDocument loadHTML？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39148170/

有关php - UTF-8 与 PHP DOMDocument loadHTML？的更多相关文章

ruby-on-rails - Rails 导入 CSV 错误 : invalid byte sequence in UTF-8 - 2
尝试在我的Rails应用程序中导入CSV文件时，出现错误UTF-8中的无效字节序列。一切正常，直到我添加了一个gsub方法来将其中一个CSV列与我的数据库中的一个字段进行比较。当我导入CSV文件时，我想检查每一行的地址是否包含在特定客户端的不同地址数组中。我有一个带有alt_addresses属性的客户端模型，其中包含客户端地址的几种不同可能格式。然后我有一个引用模型(如果您熟悉本地SEO，您就会知道这个术语)。引用模型没有地址字段，但它有一个nap_correct?字段(NAP代表“姓名”、“地址”、“电话号码”)。如果CSV行的名称、地址和电话号码与我在该客户的数据库中拥有的相同，
ruby-on-rails - 这个 C 和 PHP 程序员如何学习 Ruby 和 Rails？ - 2
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visitthehelpcenter指导。关闭9年前。我来自C、php和bash背景，很容易学习，因为它们都有相同的C结构，我可以将其与我已经知道的联系起来。然后2年前我学了Python并且学得很好，Python对我来说比Ruby更容易学。然后从去年开始，我一直在尝试学习Ruby，然后是Rails，我承认，直到现在我还是学不会，讽刺的是那些打着简单易学的烙印，但是对于我这样一个老练的程序员来说，我只是无法将它
ruby-on-rails - 如何防止错误 "code converter not found (UTF-8)"？ - 2
我在生产环境(CentOS5.6)中遇到此错误，但在开发环境(Ubuntu11.04)中运行良好。在这两种环境中，该应用程序都使用Ruby1.9.3和Rails3.0.9，并由passenger和nginx提供服务。我的Mechanizegem版本是2.3。未找到代码转换器(UTF-8)此代码的最后一行触发它:mech=Mechanize.newpage=mech.get("http://myurl.com/login.php?login_name=a&password=b")form=page.form_with(:name=>"loginForm")form.field_with(
Ruby:模糊测试所有 unicode 字符(UTF8/编码/字符串操作) - 2
我无法遍历整个unicode字符范围。我到处找...我正在构建一个模糊器，并希望将所有unicode字符(一次一个)嵌入到一个url中。例如:http://www.example.com?a=\uff1c我知道有一些内置工具，但我需要更多的灵active。如果我能像下面那样做:"\u"+"ff1c"那就太好了。这是我得到的最接近的:char="\u0000"...#withiniterationchar.succ!...但在字符"\u0039"之后，即数字9，我将得到"10"而不是":" 最佳答案您可以使用pack将数字转换为UT
ruby ， `match' : invalid byte sequence in UTF-8 - 2
我对UTF-8编码有一些问题。我在这里阅读了一些帖子，但它仍然无法正常工作。这是我的代码:#!/bin/envruby#encoding:utf-8defdeterminefile=File.open("/home/lala.txt")file.eachdo|line|puts(line)type=line.match(/DOG/)puts('aaaaa')iftype!=nilputs(type[0])breakendendend这是我文件的前3行:;?lalalalal60000065535-1362490443-0000006334-0000018467-0000000041en
Ruby，将字符串与 UTF-8 字符进行比较时出现问题 - 2
我有这2个UTF-8字符串:a="N\u01b0\u0303"b="N\u1eef"它们看起来很不一样，但渲染后是一样的:irb(main):039:0>puts"#{a}-#{b}"Nữ-Nữa版本是我存储在数据库中的版本。b版本是来自浏览器的POST请求，我不知道为什么浏览器会发送不同的UTF8字符组合，而且这种情况并不总是发生，我不能'在我的开发环境中重现该问题，它发生在生产环境中并且占总请求的百分比。情况是我尝试比较它们，但它们返回false:irb(main):035:0>a==b=>false我尝试过不同的方法，例如强制编码:irb(main):022:0>c.force
Ruby 1.9 和 Sass 编码问题。 (从 ASCII-8BIT 到 UTF-8) - 2
我最近升级到Ruby1.9，我不能再用Sass编译任何东西。我见过说明我是否放置的解决方案@charset"utf-8";在我的.sccs文件的顶部，它会修复它。但是我仍然遇到错误。这是完整的回溯我也试过从我的CSS文件中删除任何非ascii字符，创建一个新字符等。它就是无法编译。有什么建议吗？回溯:Sassiswatchingforchanges.PressCtrl-Ctostop./home/webdev/.gem/repository/gems/sass-3.1.1/lib/sass/util.rb:496:in`encode':transcodingnotsupported(f
ruby-on-rails - 如何为 UTF-8 字符串编写带有大引号的 gsub？ - 2
我正在为String类编写一个扩展方法来清理非ASCII字符。我正在清理的字符串是UTF-8。当在文件中使用非ASCII字符时，控制台不会启动，因为它将弯引号解释为常规引号。如何转义gsub中的大引号？如何编写将unicode用于大引号(例如U+201C)的gsub。使用Rails3.07和Ruby1.9.2。最佳答案您可以在正则表达式中使用与在双引号字符串中使用的相同的\u转义符:s.gsub(/[\u201c\u201d]/,'"')例如:>>s="\u201Cpancakes\u201d"=>"“pancakes”">>p
ruby 1.9 + sinatra 不兼容的字符编码 : ASCII-8BIT and UTF-8 - 2
我正在尝试将sinatra应用程序迁移到ruby1.9我正在使用sinatra1.0、rack1.2.0和erb模板当我启动sinatra时它可以工作，但是当我从浏览器请求网页时出现此错误:Encoding::CompatibilityErrorat/incompatiblecharacterencodings:ASCII-8BITandUTF-8所有.rb文件都有这个标题:#!/usr/bin/envruby#encoding:utf-8我认为问题出在erb文件中，即使它显示它是UTF-8编码[user@localhostviews]$filehome.erbhome.erb:U
ruby-on-rails - 编码::UndefinedConversionError: "\xC2"从 ASCII-8BIT 到 UTF-8 - 2
我在保存新联系人时收到以下错误。有没有办法强制转换"\xC2"以将其强制保存为UTF-8格式？c=Contact.newc.save!Encoding::UndefinedConversionError:"\xC2"fromASCII-8BITtoUTF-8:INSERTINTO"contacts"("body","created_at","email","updated_at")VALUES(?,?,?,?) 最佳答案您的字符串采用其他编码，最有可能是iso-8859-1，因此您应该运行此命令来转换它:"\xC2".encode

php - UTF-8 与 PHP DOMDocument loadHTML？

解决方法:

有关php - UTF-8 与 PHP DOMDocument loadHTML？的更多相关文章

随机推荐