php - 任何检测和删除(或修复)错误编码转换导致的错误字符的方法

coder 2024-04-15 原文

我正在写一个解析器。我已经处理了所有编码转换以正确输出 UTF-8，但有时源 Material 不正确。例如 ☐ 或 â€tm - 编码转换错误的结果。

我知道这是一个远景 - 但有没有人知道由不良字符转换或其他任何东西导致的常见字符串列表，所以我不必构建自己的列表。

是的，我知道我很懒惰，但我读过某处让我成为一名优秀程序员的地方？

最佳答案

tl;dr:请参阅最后两段。

我讨厌/喜欢编码问题。

我们正在查看 Unicode Character 'RIGHT SINGLE QUOTATION MARK' (U+2019) 的变异副本.该字符的字节序列是 0xE2 0x80 0x99。在 Windows-1252 中，它对应于 a+hat、Euro 和商标符号 (™)。我们看到的 'tm' 是该商标符号进一步音译为 ASCII t 和 ASCII m，0x74 0x6D，使我们最终损坏的字节序列 0xE2 0x80 0x74 0x6D。

很可能 a+hat-euro-t-m 的实际表示形式已经在 UTF-8 中。也就是说，a+hat 是一个 UTF-8 序列，而欧元符号也是一个 UTF-8 序列，因为有人从一个已经编码不当的 Windows-1252 文档中复制，并粘贴到一个 UTF-8 文档中。您会发现它比原始损坏的四个字节多得多。

解决此问题的一种方法是首先将这些字符的 UTF-8 编码转换回 Windows-1252，然后在写回时将该 Windows-1252 字符串视为 UTF-8。

您可以使用 iconv为此目的使用 //TRANSLIT 标志:

$less_bad = iconv('UTF-8', 'Windows-1252//TRANSLIT', $bad);

这告诉 iconv 尝试将任何不能在 Windows-1252 中表示的字符变成类似的东西。这种翻译是不完美的，会破坏在 Windows-1252 中无法表示的任何合法 UTF-8 字符。

获得 Windows-1252 字符串后，将其保存回来并将其作为 UTF-8 提供。如果一切顺利，腐败应该已经消失，你应该不会有任何问题。

是的，没错。

在这种特定情况下，正确序列的最后一个字节 0x99 已被错误的复制/粘贴修改为两个字节。 您不会通过字符集编码跳转来取回它。

虽然跳圈可能适用于某些文档，但您肯定会发现许多内容的重新编码效果更差。 您最好的选择是执行字节级搜索和替换操作，查找编码不正确的序列并将它们替换为纯 ASCII 或正确的 UTF-8 编码替代品。很多编码错误的方式。例如，如果损坏源在 ISO-8859 系列中，则最终损坏的序列会有所不同，或者最终的 ™ 可能不会被压缩到 t 和 m 在某些地方。

字节级搜索和替换保证只会影响错误的重新编码序列，并且不会留下咀嚼不能用低级字符集表示的单编码 UTF-8 字符的风险。它更安全、更快速。

编辑:我完全没有意识到你已经在计划这样做了。 ;) 不幸的是，我从未见过如此方便的列表。也许您应该发表和宣传您的作品，以便其他人受益。 yourcharacterencodingsucks.com 可用!

关于php - 任何检测和删除(或修复)错误编码转换导致的错误字符的方法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5188695/

php 错误 UTF-8 code section character-encoding

有关php - 任何检测和删除(或修复)错误编码转换导致的错误字符的方法的更多相关文章

ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2
我正在学习如何使用Nokogiri，根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div
ruby - 如何从 ruby 中的字符串运行任意对象方法？ - 2
总的来说，我对ruby还比较陌生，我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础，我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用
Ruby 解析字符串 - 2
我有一个字符串input="maybe(thisis|thatwas)some((nice|ugly)(day|night)|(strange(weather|time)))"Ruby中解析该字符串的最佳方法是什么？我的意思是脚本应该能够像这样构建句子:maybethisissomeuglynightmaybethatwassomenicenightmaybethiswassomestrangetime等等，你明白了......我应该一个字符一个字符地读取字符串并构建一个带有堆栈的状态机来存储括号值以供以后计算，还是有更好的方法？也许为此目的准备了一个开箱即用的库？
ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法？ - 2
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
ruby-on-rails - 在 Rails 中将文件大小字符串转换为等效千字节 - 2
我的目标是转换表单输入，例如“100兆字节”或“1GB”，并将其转换为我可以存储在数据库中的文件大小(以千字节为单位)。目前，我有这个:defquota_convert@regex=/([0-9]+)(.*)s/@sizes=%w{kilobytemegabytegigabyte}m=self.quota.match(@regex)if@sizes.include?m[2]eval("self.quota=#{m[1]}.#{m[2]}")endend这有效，但前提是输入是倍数(“gigabytes”，而不是“gigabyte”)并且由于使用了eval看起来疯狂不安全。所以，功能正常，
ruby-on-rails - unicode 字符串的长度 - 2
在我的Rails(2.3，Ruby1.8.7)应用程序中，我需要将字符串截断到一定长度。该字符串是unicode，在控制台中运行测试时，例如'א'.length，我意识到返回了双倍长度。我想要一个与编码无关的长度，以便对unicode字符串或latin1编码字符串进行相同的截断。我已经了解了Ruby的大部分unicode资料，但仍然有些一头雾水。应该如何解决这个问题？最佳答案 Rails有一个返回多字节字符的mb_chars方法。试试unicode_string.mb_chars.slice(0,50)
ruby - Facter::Util::Uptime:Module 的未定义方法 get_uptime (NoMethodError) - 2
我正在尝试设置一个puppet节点，但rubygems似乎不正常。如果我通过它自己的二进制文件(/usr/lib/ruby/gems/1.8/gems/facter-1.5.8/bin/facter)在cli上运行facter，它工作正常，但如果我通过由rubygems(/usr/bin/facter)安装的二进制文件，它抛出:/usr/lib/ruby/1.8/facter/uptime.rb:11:undefinedmethod`get_uptime'forFacter::Util::Uptime:Module(NoMethodError)from/usr/lib/ruby
ruby - 将差异补丁应用于字符串/文件 - 2
对于具有离线功能的智能手机应用程序，我正在为Xml文件创建单向文本同步。我希望我的服务器将增量/差异(例如GNU差异补丁)发送到目标设备。这是计划:Time=0Server:hasversion_1ofXmlfile(~800kiB)Client:hasversion_1ofXmlfile(~800kiB)Time=1Server:hasversion_1andversion_2ofXmlfile(each~800kiB)computesdeltaoftheseversions(=patch)(~10kiB)sendspatchtoClient(~10kiBtransferred)Cl
ruby-on-rails - Rails 常用字符串(用于通知和错误信息等) - 2
大约一年前，我决定确保每个包含非唯一文本的Flash通知都将从模块中的方法中获取文本。我这样做的最初原因是为了避免一遍又一遍地输入相同的字符串。如果我想更改措辞，我可以在一个地方轻松完成，而且一遍又一遍地重复同一件事而出现拼写错误的可能性也会降低。我最终得到的是这样的:moduleMessagesdefformat_error_messages(errors)errors.map{|attribute,message|"Error:#{attribute.to_s.titleize}#{message}."}enddeferror_message_could_not_find(obje
ruby - 如何将脚本文件的末尾读取为数据文件(Perl 或任何其他语言) - 2
我正在寻找执行以下操作的正确语法(在Perl、Shell或Ruby中):#variabletoaccessthedatalinesappendedasafileEND_OF_SCRIPT_MARKERrawdatastartshereanditcontinues. 最佳答案 Perl用__DATA__做这个:#!/usr/bin/perlusestrict;usewarnings;while(){print;}__DATA__Texttoprintgoeshere 关于ruby-如何将脚

php - 任何检测和删除(或修复)错误编码转换导致的错误字符的方法

有关php - 任何检测和删除(或修复)错误编码转换导致的错误字符的方法的更多相关文章

随机推荐