你真的了解 Unicode 和 UTF-8 吗？

86981633

2019-06-29

引言

一直以来总是对 unicode, UTF-8 等编码知识懵懵懂懂的，尤其是在做项目过程中只要涉及到几个编码之间的转换，都得到网上搜索一番，根据别人的经验照葫芦画瓢，才能解决问题，但是私底下却完全不懂在做什么。

我再也不愿意重复这种状态了，于是就花了一个上午的时间，将这些知识整理了一遍。如果您觉得我的总结有疑问或者错误的地方，欢迎讨论交流，批评指正。

正题之前，先引入我总结的 Unicode 思维导图来预热下：

你真的了解 Unicode 和 UTF-8 吗？

要了解 Unicode, 先要从 ASCII 码说起。

ASCII 码

什么是 ASCII 码？

ASCII 码（American Standard Code for Information Interchange）称为美国标准信息交换码。它是基于拉丁字母的一套电脑编码系统。它定义了一个用于代表常见字符的字典。

ASCII 码都包含哪些字符？

包括 "A-Z"(大小写都包含)，数据"0-9" 以及一些常见的符号，要完整查看整个 ASCII 码对应关系，可参考这里

ASCII 码的局限在哪里？

ASCII 当初只是为美国英语而设计的，只能显示 128 个编码，对其他的语言无能为力。要想显示其他语言的编码，还是要使用 unicode。

Unicode

什么是 Unicode ?

为了将全世界的文字都统一的记录下来，并将每个字符都用唯一的数字记录下来，于是就产生了Unicode。

Unicode 也称为 UCS(Universal Coded Character Set:国际编码字符集合) 是一个字符集合，对世界上大部分的文字系统进行了整理，编码，使电脑可以用更为简单的方式来呈现和处理文字。最新的版本 Unicode 11.0 已经包含了 137439 个字符。

Unicode 的数量之多，如果完全涵盖它，需要用 4 个字节来表示，但是计算机存储过程中却不是必须都用 4 个字节来完成。对于有些字符，尤其是编码在前面的字符我们也可以通过 1 个或两个字节来节省空间。这就涉及到了 unicode 的实现方式。

Unicode 的实现方式有几种？

Unicode 只是一个字符集合，每个字符用一个数字来表示，但是这些数字在计算机内采用什么方式来存储，是全部都是 4 个字节，还是 1 到 4 个字节不等，这就涉及到了字符编码的概念。

我们说 Unicode 有几种实现方式，也就是在问 Unicode 有几种编码方式？

Unicode 常用的编码方式有 UTF-8, UCS-2, UTF-16 三种，另外还有一种 UTF-32 虽然不太常用也需要提一下。

Unicode 的体系结构是什么样的？

Unicode 既然能够存储那么多的字符，肯定是有它的存储规则的，如果使用 16 进制存储，它的存储范围是多少到多少，是否都是直筒式的，从低到高排就可以了？也就是说 Unicode 的体系结构是怎么样的。

Unicode 当前定义其字符的存储范围是： 0_hex 到 10FFFF_hex ，共分为 17 个区段，可以存储 1,114,112 个字符，这对当前 (137439) 来说远远足够了。

其中区段为 0_hex 到 FFFF_hex 称为 基本多文种平面 BMP (Basic Multilingual Plane)，在这个平面中的字符表现形式是 U+ 后面跟 16 进制数。例如 X 字符的 unicode 是 U+0058。

而超出 BMP 范围的，也就是 10000_hex–10FFFF_hex 这 16 个区段，需要用到 5 到 6 位来表示，如 U+E0001 和 U+10FFFD。

UTF-8 编码

UTF-8 是使用互联网上使用最广泛的 unicode 编码方式，目前已经占有整个互联网 92% 的份额。这里再强调下 UTF-8 只是 Unicode 的一种实现方式，UTF-8 是编码方式，而 Unicode 是字符集合

它是可变长的编码方式，长度从 1 个字节到 4 个字节不等。

它能够完全兼容 ASCII 码，我们知道 ASCII 码是由 128 个字符组成的，而 Unicode 中的前 128 个字符和 ASCII 码都是一一对应的。

UCS-2 编码

UCS-2 只使用了两个字节(16 bit) 来表示字符，也就是说只能表示 65536 个字符，它只能表示 BMP 中的字符。

当前的 unicode 字符数量已远远超过了 UCS-2 的数量，因此 UCS-2 虽然还在被好多软件使用，但它已经过期了。

正因为 UCS-2 编码依然被许多软件使用，为了能够表示出 BMP 以外的平面内的字符，就产生了一种新的编码 UTF-16 编码。

UTF-16 编码

UTF-16 就是为了解决 UCS-2 编码的问题而生的，它扩展自 UCS-2

基本多文种平面中，与 UCS-2 编码完全一致，使用两个字节表示
U+010000 到 U+10FFFF 范围使用 4 个字节表示

UTF-16 编码的市场份额和 UTF-8 比很小，在web 页面中只占 0.01% 。而且主要在 windows 系统中使用， Unix/Linux 以及 MacOS 中很少使用。

UTF-32 编码

UTF-32 对 Unicode 中的每个字符都用 4 个字节来表示,占用的空间比其他编码要多的多，也正是这个原因，人们才用的很少。

小结

既然看到了这里，您一定对 unicode 有了一些认识吧，请再来回顾下 Unicode 的思维导图，加深下理解。
你真的了解 Unicode 和 UTF-8 吗？

下面来总结下重点：

ASCII 码只能表示 128 个字符，只是针对美国英语而设计的，为了表示其他语言的字符，于是就有了 Unicode
Unicode 只是一个字符集，里面收集了全世界绝大部分语言的字符。它有多种实现方式（编码方式），最常用的就是 UTF-8
UTF-8 编码是变长字节的，1 到 4 个字节不等，并且它能够完全兼容 ASCII 码

参考文档

维基百科 Unicode

unicode 字符思维导图

86981633

0 关注 0 粉丝 0 动态

相关推荐

Golang 中的 Unicode 与 UTF-8

大多数的我们，真正认识到有字符编码这回事，一般都是因为遇到了乱码，因为我国常用的编码是 GBK 以及 GB2312：用两个 Byte 来表示所有的汉字，这样，我们一共可以表示 2^16 = 65536 个字符，一旦我们的 GBK 以及 GB2312 编

周游列国之仕子 2020-09-21

Golang中的Unicode与字符串示例详解

在我们使用Golang进行开发过程中，总是绕不开对字符或字符串的处理，而在Golang语言中，对字符和字符串的处理方式可能和其他语言不太一样，比如Python或Java类的语言，本篇文章分享一些Golang语言下的Unicode和字符串编码。被转换的整数值

89411051 2020-06-14

基于php解决json_encode中文UNICODE转码问题

用PHP的json_encode来处理中文的时候, 中文都会被编码, 变成不可读的, 类似”\u***”的格式，如果想汉字不进行转码，这里提供三种方法

86530296 2020-11-10

Java 使用hutool工具类代替commons-text进行Json 中文 Unicode转换

中文转换Unicode，目前有两种方式，自写工具类或引入第三方包，这里我推荐引入三方包，因为使用mvn配置非常简单，网上搜到的大多数都是自己写的工具类，试了一个，效果不是很好，因为把ASCII编码也转成Unicode格式了，虽然能用，但是可读性降低。最终放

88540591 2020-06-16

MySQL 编码utf8 与 utf8mb4 utf8mb4_unicode_ci 与 utf8mb4_general_ci

utf8mb4 已成为 MySQL 8.0 的默认字符集，在MySQL 8.0.1及更高版本中将 utf8mb4_0900_ai_ci 作为默认排序规则。UTF-8 编码是一种变长的编码机制，可以用1~4个字节存储字符。因为历史遗留问题，MySQL 中的

mjshldcsd 2020-06-14

Windows 程序设计（三）关于字符串

C语言/C++语言，使用的字符串指针就是 char* 类型，C++中的字符串是 string，内部也是对 char* 的封装。操作系统的国际化，比如：Windows 系统不仅有英文的，也有中文的，韩文的，日文的，所以原来用一个 char 来表示一个英文字符

88384957 2020-06-12

SQL SERVER字符串前加N转换为Unicode编码

SQL SERVER搜索时select name=‘字符串‘时‘字符串‘默认会是ASCII码，而name一般是Unicode码，当‘字符串‘为中英文时，绝大部分ASCII码等于Unicode码，但如果‘字符串‘为中文生僻字，法文，韩文，日文等等情况‘字符串

84590091 2020-06-08

正则表达式：去除Unicode

* \p{L}或\p{Letter}：来自任何语言的任何形式的字母。* \p{Lu}或\p{Uppercase_Letter}：具有小写字母变体的大写字母。注意的是，正则中没有使用“\p{L}”，这是因为“\p{L}”也会过滤掉中文字符，需要注意

88540591 2020-06-04

cookbook-在正则中使用Unicode

<_sre.SRE_Match object; span=, match=‘???‘>

81214051 2020-06-03

linux字符编码相关知识总结、file命令、iconv命令

现代计算机存储文件有很多种编码方式，各个计算机系统、程序支持的编码格式不尽相同。字符集指字符的集合，不同的字符集支持不同的语言，ASCII字符集就只支持英文。字符集有对应码表，用来查找字符和做编码转换等；不表示最终编码方式。字符编码是指将字符集和二进制数建

88540591 2020-06-01

ascii、unicode、utf-8、gbk

字节码是一种中间状态（中间码）的二进制代码（文件）。需要直译器转译后才能成为机器码。1字节 = 8 位位，数据存储是以“字节”为单位，数据传输是以大多是以“位”为单位，一个位就代表一个0或1，二进制是构成存储器的最小单位，utf-8 万国码的升级版

81214051 2020-06-01

汉字字节数

欧美人就是喜欢直来直去，字符少，编码用得位数少；

82056521 2020-05-12

putimage/loadimage在vs中标红报错在vs中将项目由Unicode字符集转多字符集

int main(){ initgraph; loadimage; putimage; DrawMap(); system; return 0;}. 在Visual C++.NET中，默认的字符集是Unicode，这和Windows默认的字符集是一致的，不

84590091 2020-05-03

Oracle字符集的设置

字符编码是一种法则，在数字与符号之间建立的对应关系。不同的国家有不同的语言，包含的文字、标点符号、图形符号各有不同。例如在ASCII编码中，用数字97表达字符‘a‘与字符集相对应，常见的字符编码有ASCII，GBK，GB18030，Unicode等。字符集

81214051 2020-04-25

有了这篇文章， Python 中的编码不再是噩梦

Python 中编码问题，一直是很多 Python 开发者的噩梦，尽管你是工作多年的 Python 开发者，也肯定会经常遇到令人神烦的编码问题，好不容易花了半天搞明白了。反反复复，这个过程真是太痛苦了。今天我把大家在 Python 上会遇到的一些编码问题

honghao0 2020-04-24

CentOS7设置中文字符集

字符编码是一种法则，在数字与符号之间建立的对应关系。不同的国家有不同的语言，包含的文字、标点符号、图形符号各有不同。例如在ASCII编码中，用数字97表达字符‘a‘与字符集相对应，常见的字符编码有ASCII，GBK，GB18030，Unicode等。字符集

84590091 2020-04-22

Java将u开头的unicode字符串转换为中文

　　如果是一个很普通的字符串，不是json格式，就是一个字符串\u67e5\u8be2\u6210\u529f，怎么解析呢？String unicodeNum = matcher.group; // 匹配出每个字的数字，比如\u67e5，会匹配出67e5

85271041 2020-04-10

utf8字符集下的比较规则

在MySQL中，比较常用的字符集是utf8和utf8mb4。这两个字符集是类似的，utf8是utf8mb3的别名，所以之后在MySQL中提到utf8就意味着使用1~3个字节来表示一个字符，如果大家有使用4字节编码一个字符的情况，比如存储一些emoji表情啥

88384957 2020-03-27

在VBA编辑器中输入中文成了乱码

3.按照如下步骤更改非Unicode程序的语言即可：控制面板=>时钟、语言和区域=>区域=>管理=>非Unicode程序的语言=>更改系统区域设置为中文=>重启电脑。

85271041 2020-03-08

python3字符串编码转换

编码转换：1、将文本已以二进制方式读取出来；2、将读取的二进制文本已改文本的编码方式进行解码成Unicode3、然后将解码后的Unicode编码成要转换的编码格式。s_gbk = s_unicode.encode # Unicode转换成gbk模式f =

84590091 2020-02-16

86981633

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号