Unicode和UTF系列（2）

ahansban

2011-12-08

UFT-8

UTF-8采用的是变长码的方式，其编码规则如下：

代码点值的范围（16进制）第1字节第2字节第3字节

00000000-0000007F0xxxxxxx0-127）

00000080-000007FF110xxxxx（192-223）10xxxxxx（128-191）

00000800-0000FFFF1110xxxx（224-239）10xxxxxx（128-191）10xxxxxx（128-191）

注：x的内容是将左边代码点的二进制值依次注入。

理论上UTF-8可以达到6个字节编码（上表省略后3位字节以上的编码方式），但实际上，我们一般只采用0x00000000到0x00000000FFFF的范围内的字符，也就说UTF-8实际上只采用了3个字节编码。

UTF-8除了省空间和兼容ASCII的优点后，其编码方式（类似于哈夫曼编码，很容易判断出1个字节及其后面的字节数）决定了它以下两个优点：

1、与字节顺序无关,可以在不同平台之间交流。

2、容错能力高,任何一个字节损坏后,最多只会导致一个编码码位损失,不会链锁错误(如GB码错一个字节就会整行乱码)

UTF-16和UTF-32

UTF-16是变长码，大致上相当于UCS-2码的直接实现，但是也有一部分UCS-4的字符。所以可以猜到，它大部分是采用2个字节编码，而有部分特殊符号采用3字节编码，所以大致相当于20位编码,值在0到0x10FFFF之间。

UTF-32用四个字节表示代码点，这样就可以完全表示UCS-4的所有代码点。

ahansban

0 关注 0 粉丝 0 动态

相关推荐

基于php解决json_encode中文UNICODE转码问题

用PHP的json_encode来处理中文的时候, 中文都会被编码, 变成不可读的, 类似”\u***”的格式，如果想汉字不进行转码，这里提供三种方法

86530296 2020-11-10

Golang 中的 Unicode 与 UTF-8

大多数的我们，真正认识到有字符编码这回事，一般都是因为遇到了乱码，因为我国常用的编码是 GBK 以及 GB2312：用两个 Byte 来表示所有的汉字，这样，我们一共可以表示 2^16 = 65536 个字符，一旦我们的 GBK 以及 GB2312 编

周游列国之仕子 2020-09-21

Java 使用hutool工具类代替commons-text进行Json 中文 Unicode转换

中文转换Unicode，目前有两种方式，自写工具类或引入第三方包，这里我推荐引入三方包，因为使用mvn配置非常简单，网上搜到的大多数都是自己写的工具类，试了一个，效果不是很好，因为把ASCII编码也转成Unicode格式了，虽然能用，但是可读性降低。最终放

88540591 2020-06-16

Golang中的Unicode与字符串示例详解

在我们使用Golang进行开发过程中，总是绕不开对字符或字符串的处理，而在Golang语言中，对字符和字符串的处理方式可能和其他语言不太一样，比如Python或Java类的语言，本篇文章分享一些Golang语言下的Unicode和字符串编码。被转换的整数值

89411051 2020-06-14

MySQL 编码utf8 与 utf8mb4 utf8mb4_unicode_ci 与 utf8mb4_general_ci

utf8mb4 已成为 MySQL 8.0 的默认字符集，在MySQL 8.0.1及更高版本中将 utf8mb4_0900_ai_ci 作为默认排序规则。UTF-8 编码是一种变长的编码机制，可以用1~4个字节存储字符。因为历史遗留问题，MySQL 中的

mjshldcsd 2020-06-14

Windows 程序设计（三）关于字符串

C语言/C++语言，使用的字符串指针就是 char* 类型，C++中的字符串是 string，内部也是对 char* 的封装。操作系统的国际化，比如：Windows 系统不仅有英文的，也有中文的，韩文的，日文的，所以原来用一个 char 来表示一个英文字符

88384957 2020-06-12

SQL SERVER字符串前加N转换为Unicode编码

SQL SERVER搜索时select name=‘字符串‘时‘字符串‘默认会是ASCII码，而name一般是Unicode码，当‘字符串‘为中英文时，绝大部分ASCII码等于Unicode码，但如果‘字符串‘为中文生僻字，法文，韩文，日文等等情况‘字符串

84590091 2020-06-08

正则表达式：去除Unicode

* \p{L}或\p{Letter}：来自任何语言的任何形式的字母。* \p{Lu}或\p{Uppercase_Letter}：具有小写字母变体的大写字母。注意的是，正则中没有使用“\p{L}”，这是因为“\p{L}”也会过滤掉中文字符，需要注意

88540591 2020-06-04

cookbook-在正则中使用Unicode

<_sre.SRE_Match object; span=, match=‘???‘>

81214051 2020-06-03

linux字符编码相关知识总结、file命令、iconv命令

现代计算机存储文件有很多种编码方式，各个计算机系统、程序支持的编码格式不尽相同。字符集指字符的集合，不同的字符集支持不同的语言，ASCII字符集就只支持英文。字符集有对应码表，用来查找字符和做编码转换等；不表示最终编码方式。字符编码是指将字符集和二进制数建

88540591 2020-06-01

ascii、unicode、utf-8、gbk

字节码是一种中间状态（中间码）的二进制代码（文件）。需要直译器转译后才能成为机器码。1字节 = 8 位位，数据存储是以“字节”为单位，数据传输是以大多是以“位”为单位，一个位就代表一个0或1，二进制是构成存储器的最小单位，utf-8 万国码的升级版

81214051 2020-06-01

汉字字节数

欧美人就是喜欢直来直去，字符少，编码用得位数少；

82056521 2020-05-12

putimage/loadimage在vs中标红报错在vs中将项目由Unicode字符集转多字符集

int main(){ initgraph; loadimage; putimage; DrawMap(); system; return 0;}. 在Visual C++.NET中，默认的字符集是Unicode，这和Windows默认的字符集是一致的，不

84590091 2020-05-03

Oracle字符集的设置

字符编码是一种法则，在数字与符号之间建立的对应关系。不同的国家有不同的语言，包含的文字、标点符号、图形符号各有不同。例如在ASCII编码中，用数字97表达字符‘a‘与字符集相对应，常见的字符编码有ASCII，GBK，GB18030，Unicode等。字符集

81214051 2020-04-25

有了这篇文章， Python 中的编码不再是噩梦

Python 中编码问题，一直是很多 Python 开发者的噩梦，尽管你是工作多年的 Python 开发者，也肯定会经常遇到令人神烦的编码问题，好不容易花了半天搞明白了。反反复复，这个过程真是太痛苦了。今天我把大家在 Python 上会遇到的一些编码问题

honghao0 2020-04-24

CentOS7设置中文字符集

字符编码是一种法则，在数字与符号之间建立的对应关系。不同的国家有不同的语言，包含的文字、标点符号、图形符号各有不同。例如在ASCII编码中，用数字97表达字符‘a‘与字符集相对应，常见的字符编码有ASCII，GBK，GB18030，Unicode等。字符集

84590091 2020-04-22

Java将u开头的unicode字符串转换为中文

　　如果是一个很普通的字符串，不是json格式，就是一个字符串\u67e5\u8be2\u6210\u529f，怎么解析呢？String unicodeNum = matcher.group; // 匹配出每个字的数字，比如\u67e5，会匹配出67e5

85271041 2020-04-10

utf8字符集下的比较规则

在MySQL中，比较常用的字符集是utf8和utf8mb4。这两个字符集是类似的，utf8是utf8mb3的别名，所以之后在MySQL中提到utf8就意味着使用1~3个字节来表示一个字符，如果大家有使用4字节编码一个字符的情况，比如存储一些emoji表情啥

88384957 2020-03-27

在VBA编辑器中输入中文成了乱码

3.按照如下步骤更改非Unicode程序的语言即可：控制面板=>时钟、语言和区域=>区域=>管理=>非Unicode程序的语言=>更改系统区域设置为中文=>重启电脑。

85271041 2020-03-08

python3字符串编码转换

编码转换：1、将文本已以二进制方式读取出来；2、将读取的二进制文本已改文本的编码方式进行解码成Unicode3、然后将解码后的Unicode编码成要转换的编码格式。s_gbk = s_unicode.encode # Unicode转换成gbk模式f =

84590091 2020-02-16

ahansban

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号