字符编码：Unicode & UTF-16 & UTF-8

Journing 2023-03-28 原文

ASCII码

使用一个字节（8位），对128个字符进行编码；

最高位始终为0；

码数范围为0000_0000(0x00)到0111_1111(0x7F)；

Unicode

开始的编码设计

使用两个字节（16位），对65536个字符进行编码；

范围为0000_0000_0000_0000(0x0000)到1111_1111_1111_1111(0xFFFF)；

而0x0000 - 0x007F对应的字符，与ASCII码保持一致；

最终的编码设计

由于世界上的字符，超过了65536个，所以开始只用两个字节的设计已经不足够了，需要扩展；

最终扩展如下：

基本多语言平面(BMP, Basic Multilingual Plane)

和开始的设计一致，用两个字节来编码，码数范围0x0000 - 0xFFFF；

但是，在这个范围里，有预留0xD800 - 0xDFFF的码数，他们不代表任何字符，仅用于作为增补平面的代理对而存在；
增补平面(SP, Supplementary Plane)

超出BMP所能表示的字符，改用如下范围：0x10000 - 0x10FFFF来编码；

Unicode编者认为这个范围已经足够全世界的字符编码了，因为这足够表示一百万多个字符了；

代理对(surrogate pair)

预留的0xD800 - 0xDFFF，分为两部分：

高位0xD800 - 0xDBFF
低位0xDC00 - 0xDFFF

这样做的目的，是为了UTF-16编码方式；

一个高位加一个低位，共四个字节，定义了SP中的字符的UTF-16编码；

码点(code point)

Unicode编码中，一个字符所对应的码数，称为该字符的码点；

通常在计算机的字符和字符串中，使用\u码点的形式来转义码点，来表示一个Unicode编码的码点所对应的字符；

UTF-16

请注意，Unicode编码的码点，是人为约定的对字符的编码方式；

但是计算机只认二进制，所以如何将Unicode定义的字符的码点，编码为计算机实际存储的二进制串，以及如何从一串二进制串，解码成Unicode定义的字符的码点，就是UTF-16要做的事情；

UTF-16的16代表最小的编码单位是16位二进制串；

编码

分为两种情况：

BMP中的字符

直接用Unicode定义的码点作为UTF-16编码即可；
SP中的字符

使用两个16位二进制串进行编码，即采用四个字节来编码；

现在假设有一个字符，其Unicode定义的码点为0xAAAAA，对其进行如下操作：
- u = 0xAAAAA - 0x10000；
- 将u写成二进制串：yyyy_yyyy_yyxx_xxxx_xxxx；
- 则该字符的UTF-16编码为：1101_10yy_yyyy_yyyy 1101_11xx_xxxx_xxxx；
SP的UTF-16编码的两个16位二进制串：

第一个16位串的前六位固定是1101_10，结合yy的范围(00 - 11)，即1101_1000 - 1101_1011，此范围即是代理对的高位的前两位0xD8 - 0xDB；

第二个16位串的前六位固定是1101_11，结合xx的范围00 - 11，即1101_1100 - 1101_1111，此范围即是代理对的低位的前两位的范围0xDC - 0xDF；

再结合各自后面八位二进制串的范围0000_0000 - 1111_1111，就可以得到各自完整的代理对；

也就是说，SP的UTF-16的编码结果，即为高位+低位的四个字节的代理对；

解码

只要看一个16位二进制串的头八位，是否在代理对的范围即可；

不在代理对的范围

说明是BMP中的字符，直接对应Unicode码点找到对应的字符即可；
在代理对的范围

说明是SP中的字符，再根据头六位确定好代理对的高低位，

去除各自的前六位，组成20位二进制串，再加上0x10000即为Unicode定义的码点，即可找到对应的字符；

UTF-8

UTF-8是不同于UTF-16的另一种对Unicode的编解码方式；

不同之处就在于，UTF-8的8代表最小的编码单位是8位二进制串；

编码

UTF-8对码点的编码方式如下：

码点范围0x0000 - 0x007F

UTF-8编码为二进制串0xxx_xxxx，与ASCII码保持一致，长度为1个字节；
码点范围0x0080 - 0x07FF

UTF-8编码为二进制串110x_xxxx 10xx_xxxx，长度为2个字节；
码点范围0x0800 - 0xFFFF

UTF-8编码为二进制串1110_xxxx 10xx_xxxx 10xx_xxxx，长度为3个字节；
码点范围0x10000 - 0x10FFFF

UTF-8编码为二进制串1111_0xxx 10xx_xxxx 10xx_xxxx 10xx_xxxx，长度为4个字节；

假设现在有一个字符，码点在范围0x0800 - 0xFFFF中：

将其码点写成二进制串：xxxx_yyyy yyzz_zzzz；
则UTF-8编码的第一个字节为1110_xxxx;
第二个字节为10yy_yyyy；
第三个字节为10zz_zzzz；

解码

只要看第一个字节的首位即可：

首位为0

说明在码点范围0x0000 - 0x007F，直接对应Unicode码点找到对应的字符即可；
首位为1，再看从首位开始，遇到第一个0结束，一共有几个1
- 两个1，说明UTF-8编码长度为2个字节
- 三个1，说明UTF-8编码长度为3个字节
- 四个1，说明UTF-8编码长度为4个字节
- 去除对应字节的固定位，组合为一个二进制串，找到对应Unicode码点的字符即可；

代码单元(code unit)

不同的UTF编码，所对应的编码单位的长度不同；

UTF-16的编码单位的长度为16位二进制；

UTF-8的编码单位的长度为8位二进制；

这个编码单位称为代码单元；

比如对于UTF-16的编码：

在BMP中，一个字符所对应的UTF-16的16位二进制串，称为该字符的代码单元；

而在SP中，一个字符所对应的UTF-16的两个16位二进制串，称为该字符的一对代码单元；

而对于UTF-8的编码：

在码点范围0x0000 - 0x007F中，一个字符所对应的UTF-8的4个字节，称为该字符的4个代码单元；

在码点范围0x0080 - 0x07FF中，一个字符所对应的UTF-8的4个字节，称为该字符的4个代码单元；

在码点范围0x0800 - 0xFFFF中，一个字符所对应的UTF-8的4个字节，称为该字符的4个代码单元；

在码点范围0x10000 - 0x10FFFF中，一个字符所对应的UTF-8的4个字节，称为该字符的4个代码单元；

也就是说，随着UTF编码形式的不同，同一个字符的码点，会有不同个数的代码单元；

有关字符编码：Unicode & UTF-16 & UTF-8的更多相关文章

ruby - 如何从 ruby 中的字符串运行任意对象方法？ - 2
总的来说，我对ruby还比较陌生，我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础，我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用
Ruby 解析字符串 - 2
我有一个字符串input="maybe(thisis|thatwas)some((nice|ugly)(day|night)|(strange(weather|time)))"Ruby中解析该字符串的最佳方法是什么？我的意思是脚本应该能够像这样构建句子:maybethisissomeuglynightmaybethatwassomenicenightmaybethiswassomestrangetime等等，你明白了......我应该一个字符一个字符地读取字符串并构建一个带有堆栈的状态机来存储括号值以供以后计算，还是有更好的方法？也许为此目的准备了一个开箱即用的库？
ruby-on-rails - 在 Rails 中将文件大小字符串转换为等效千字节 - 2
我的目标是转换表单输入，例如“100兆字节”或“1GB”，并将其转换为我可以存储在数据库中的文件大小(以千字节为单位)。目前，我有这个:defquota_convert@regex=/([0-9]+)(.*)s/@sizes=%w{kilobytemegabytegigabyte}m=self.quota.match(@regex)if@sizes.include?m[2]eval("self.quota=#{m[1]}.#{m[2]}")endend这有效，但前提是输入是倍数(“gigabytes”，而不是“gigabyte”)并且由于使用了eval看起来疯狂不安全。所以，功能正常，
ruby-on-rails - unicode 字符串的长度 - 2
在我的Rails(2.3，Ruby1.8.7)应用程序中，我需要将字符串截断到一定长度。该字符串是unicode，在控制台中运行测试时，例如'א'.length，我意识到返回了双倍长度。我想要一个与编码无关的长度，以便对unicode字符串或latin1编码字符串进行相同的截断。我已经了解了Ruby的大部分unicode资料，但仍然有些一头雾水。应该如何解决这个问题？最佳答案 Rails有一个返回多字节字符的mb_chars方法。试试unicode_string.mb_chars.slice(0,50)
ruby-on-rails - rails : "missing partial" when calling 'render' in RSpec test - 2
我正在尝试测试是否存在表单。我是Rails新手。我的new.html.erb_spec.rb文件的内容是:require'spec_helper'describe"messages/new.html.erb"doit"shouldrendertheform"dorender'/messages/new.html.erb'reponse.shouldhave_form_putting_to(@message)with_submit_buttonendendView本身，new.html.erb，有代码:当我运行rspec时，它失败了:1)messages/new.html.erbshou
ruby-on-rails - 由于 "wkhtmltopdf"，PDFKIT 显然无法正常工作 - 2
我在从html页面生成PDF时遇到问题。我正在使用PDFkit。在安装它的过程中，我注意到我需要wkhtmltopdf。所以我也安装了它。我做了PDFkit的文档所说的一切......现在我在尝试加载PDF时遇到了这个错误。这里是错误:commandfailed:"/usr/local/bin/wkhtmltopdf""--margin-right""0.75in""--page-size""Letter""--margin-top""0.75in""--margin-bottom""0.75in""--encoding""UTF-8""--margin-left""0.75in""-
ruby-on-rails - 'compass watch' 是如何工作的/它是如何与 rails 一起使用的 - 2
我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗？当我运行compasswatch时，它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行？文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们？我自己编译的.sass文件编译成compiled/t
ruby - 将差异补丁应用于字符串/文件 - 2
对于具有离线功能的智能手机应用程序，我正在为Xml文件创建单向文本同步。我希望我的服务器将增量/差异(例如GNU差异补丁)发送到目标设备。这是计划:Time=0Server:hasversion_1ofXmlfile(~800kiB)Client:hasversion_1ofXmlfile(~800kiB)Time=1Server:hasversion_1andversion_2ofXmlfile(each~800kiB)computesdeltaoftheseversions(=patch)(~10kiB)sendspatchtoClient(~10kiBtransferred)Cl
ruby-on-rails - Rails 常用字符串(用于通知和错误信息等) - 2
大约一年前，我决定确保每个包含非唯一文本的Flash通知都将从模块中的方法中获取文本。我这样做的最初原因是为了避免一遍又一遍地输入相同的字符串。如果我想更改措辞，我可以在一个地方轻松完成，而且一遍又一遍地重复同一件事而出现拼写错误的可能性也会降低。我最终得到的是这样的:moduleMessagesdefformat_error_messages(errors)errors.map{|attribute,message|"Error:#{attribute.to_s.titleize}#{message}."}enddeferror_message_could_not_find(obje
ruby - 如何以所有可能的方式将字符串拆分为长度最多为 3 的连续子字符串？ - 2
我试图获取一个长度在1到10之间的字符串，并输出将字符串分解为大小为1、2或3的连续子字符串的所有可能方式。例如:输入:123456将整数分割成单个字符，然后继续查找组合。该代码将返回以下所有数组。[1,2,3,4,5,6][12,3,4,5,6][1,23,4,5,6][1,2,34,5,6][1,2,3,45,6][1,2,3,4,56][12,34,5,6][12,3,45,6][12,3,4,56][1,23,45,6][1,2,34,56][1,23,4,56][12,34,56][123,4,5,6][1,234,5,6][1,2,345,6][1,2,3,456][123