字符编码

88384758

2019-06-27

关注关注

ASCII 编码

ASCII占用8位（bit）。8个bit可以表示256个字符。

ASCII码只规定了128个字符的编码。

ASCII码的问题是字符太少，不能满足世界各国的需要。所以各国其他编码利用剩余的128个字符定义各自不同的编码。

GB2312 & GBK

汉字GB2312 使用两个字节（16位），最多表示65536个字符。

一个小于127的字符的意义与原来相同，但两个大于127的字符连在一起时，就表示一个汉字，前面的一个字节（他称之为高字节）从0xA1用到0xF7，后面一个字节（低字节）从0xA1到0xFE

gb2312中两个字符组成的编码的字符叫做“全角”字符，而原来在127号以下的那些就叫”半角”字符了

对GB2312扩展就得到了GBK，再扩展得到GB18030（少数民族文字）。

所以，一个字节小于127的编码都按照ASCII码查，大于127的字节+之后的字节（一共两个字节16位）组成汉字的编码。

所以，“一个汉字两个英文字符”就是这么来的。

Unicode

为了统一一种编码，Unicode出现了。

Unicode 目前规划的总空间是17个平面（平面0至16），0x0000 至 0x10FFFF。最前面的65536个字符位，称为基本平面（缩写BMP）。每个平面有 65536 个码点。

Unicode只规定了每个字符的码点，到底用什么样的字节序表示这个码点，就涉及到编码方法。

最直观的编码方案就是 UTF-32

The characters “U+” are an ASCIIfied version of the MULTISET UNION “⊎” U+228E character (the U-like union symbol with a plus sign inside it), which was meant to symbolize Unicode as the union of character sets. See Kenneth Whistler’s explanation in the Unicode mailing list. （https://stackoverflow.com/que...）

UTF-32

由于Unicode是0x0000 至 0x10FFFF，直接用定长的4个字节来表示对应的字符

U+0000 = 0x0000 0000
U+597D = 0x0000 597D

这样好处是直观，但是太浪费空间了。

为什么不用utf-24呢？都用3个字节表示。

Why is there no UTF-24?

UTF-8

UTF-8是一种变长的编码，从1字节到4字节。

英文字母为1个字节，汉字为3个字节。

Unicode符号范围 | UTF-8编码方式

Reference

字符编码 unicode 字符

88384758

0 关注 0 粉丝 0 动态

关注关注

Golang中的Unicode与字符串示例详解

在我们使用Golang进行开发过程中，总是绕不开对字符或字符串的处理，而在Golang语言中，对字符和字符串的处理方式可能和其他语言不太一样，比如Python或Java类的语言，本篇文章分享一些Golang语言下的Unicode和字符串编码。被转换的整数值

89411051 2020-06-14

MySQL 编码utf8 与 utf8mb4 utf8mb4_unicode_ci 与 utf8mb4_general_ci

utf8mb4 已成为 MySQL 8.0 的默认字符集，在MySQL 8.0.1及更高版本中将 utf8mb4_0900_ai_ci 作为默认排序规则。UTF-8 编码是一种变长的编码机制，可以用1~4个字节存储字符。因为历史遗留问题，MySQL 中的

mjshldcsd 2020-06-14

linux字符编码相关知识总结、file命令、iconv命令

现代计算机存储文件有很多种编码方式，各个计算机系统、程序支持的编码格式不尽相同。字符集指字符的集合，不同的字符集支持不同的语言，ASCII字符集就只支持英文。字符集有对应码表，用来查找字符和做编码转换等；不表示最终编码方式。字符编码是指将字符集和二进制数建

88540591 2020-06-01

汉字字节数

欧美人就是喜欢直来直去，字符少，编码用得位数少；

82056521 2020-05-12

Oracle字符集的设置

字符编码是一种法则，在数字与符号之间建立的对应关系。不同的国家有不同的语言，包含的文字、标点符号、图形符号各有不同。例如在ASCII编码中，用数字97表达字符‘a‘与字符集相对应，常见的字符编码有ASCII，GBK，GB18030，Unicode等。字符集

81214051 2020-04-25

CentOS7设置中文字符集

84590091 2020-04-22

utf8字符集下的比较规则

在MySQL中，比较常用的字符集是utf8和utf8mb4。这两个字符集是类似的，utf8是utf8mb3的别名，所以之后在MySQL中提到utf8就意味着使用1~3个字节来表示一个字符，如果大家有使用4字节编码一个字符的情况，比如存储一些emoji表情啥

88384957 2020-03-27

unicode编码详解，一看就懂

　　Unicode编码是一种计算机字符编码标准，其实个人认为叫字符集更为准确；而我们熟悉的UTF-8 UTF-16 UTF-32是Unicode的具体实现。　　　把世界上所有能出现的字符，都为其分配一个数字来表示，比如，数字U+7F57被分配给了汉字中的&

84590091 2020-01-04

utf8和utf8mb4的区别

MySQL在5.5.3之后增加了这个utf8mb4的编码，mb4就是most bytes 4的意思，专门用来兼容四字节的unicode。好在utf8mb4是utf8的超集，除了将编码改为utf8mb4外不需要做其他转换。当然，为了节省空间，一般情况下使用u

88540591 2019-12-26

MySQL乱码的原因和设置UTF8数据格式

MySQL使用时，有一件很痛苦的事情肯定是结果乱码。将编码格式都设置为UTF8可以解决这个问题，我们今天来说下为什么要这么设置，以及怎么设置。在编程语言中，我们为了防止中文乱码，会使用unicode对中文字符做处理，而为了降低网络带宽和节省存储空间，我们使

xiaobaif 2019-12-20

Unicode，UTF-8和UTF-16的区别与联系

UTF-8最大的优势是，没有字节序的概念。所以特别适合用于字符串的网络数据传输，不用考虑大小端问题。对于非英文网页，能够避免各种乱码问题。但是对于中文等远东字符集来说，就比较坑爹了。UTF-8编码格式下，一个汉字需要至少3个char才能表示。这对于通过下标

88447005 2019-12-07

Python中 sys.setdefaultencoding(\"utf8\") 的作用详解

设置python默认字节流编/解码器按照utf8解码方式，把字节流编/解码为unicode；在将字节流使用str()方法转换为str对象时，会调用默认的encode函数，如果没有上述系统的默认编码设置，则自动使用‘ascii‘ codecs进行编码，对于非

88384957 2019-11-09

MySQL字符集utf8修改为utf8mb4

对于mysql 5.5 而言，如果不设定字符集，mysql默认的字符集是 latin1 拉丁文字符集；utf8mb4兼容utf8，且比utf8能表示更多的字符，是utf8字符集的超集。当然调整的最好方法是客户端，mysql数据库的字符集都修改为utf8mb

lpfvip00 2019-11-09

python基础字符编码转换

#python2上所有的字符编码都需要先decode到unicode,再从unicode encode到目标编码。#二进制转换为字符串，使用decode，此处二进制的编码格式如果填写错误可能会导致二进制无法转换为字符串，导致程序报错。#python3上默认

JakobHu 2019-11-09

字符的编码

所以说，想执行py文件，必须先执行python解释器。文件的输入和输出是两个过程。人类的字符 >>>>>>> >>>> 计算机二进制。最多只能表示255位。为了兼容所有的国

zluxingzhe 2019-11-08

python 字符编码

　　2、python解释器执行一个py文件过程（***）　　　　如果没有python解释器，py文件单纯就是一个文本文件　　　　所以说，想执行py文件，必须先执行python解释器。　　　　1、将python解释器的代码由硬

taiyangshenniao 2019-11-07

字符编码及文本一

有必要考虑，图片文件、音频文件、视频文件？(内存)unicode二进制字符 >>> 编码 >>> (硬盘)utf-8二进制字符。深copy就是不止把大框架拿了过来，而把小框架里的东西都拿了过来，改变小列表中的值，这个

meylovezn 2019-11-07

字符集详解

encoding 是 charset encoding 的简写，即字符集编码，简称编码。编号不涉及具体使用多少字节来表示、是用定长还是变长方案等细节问题。编号仅仅是一个抽象的概念，将具体字符映射到一个唯一的code上，是把字符数字化的一个过程。Unicod

80467305 2019-11-04

关于常见的编码的定义、关系以及使用场景（UTF-X Unicode ASCII GBK等）

*作为新手，初上手写代码，在开发过程中逐渐发现对于各种编码的属性和意义都有了更深入的理解，随之也更加不清楚各种编码之间的关系以及如何转换。本文章通过整理总结各种编码，帮助自己了解在各种环境下应该使用何种编码，希望以后不会再迷惑。所以UTF-X就是为了解决这

butterflyfly00 2019-11-04

彻底弄懂python编码

在编写python程序的过程中，中英文混用经常会出现编码问题。围绕此问题，本文首先介绍编码的含义及常用编码，随后列举几个python经常遇到的编码异常及解决方法，接着列举笔者在实践中遇到的异常出现的情景及原因，最后针对编码问题提出最佳实践。针对字符和数字的

82056521 2019-11-03

安科网

字符编码

88384758

ASCII 编码

GB2312 & GBK

Unicode

UTF-32

UTF-8

Reference

88384758

相关推荐

Golang中的Unicode与字符串示例详解

MySQL 编码utf8 与 utf8mb4 utf8mb4_unicode_ci 与 utf8mb4_general_ci

linux字符编码相关知识总结、file命令、iconv命令

汉字字节数

Oracle字符集的设置

CentOS7设置中文字符集

utf8字符集下的比较规则

unicode编码详解，一看就懂

utf8和utf8mb4的区别

MySQL乱码的原因和设置UTF8数据格式

Unicode，UTF-8和UTF-16的区别与联系

Python中 sys.setdefaultencoding(\"utf8\") 的作用详解

MySQL字符集utf8修改为utf8mb4

python基础字符编码转换

字符的编码

python 字符编码

字符编码及文本一

字符集详解

关于常见的编码的定义、关系以及使用场景（UTF-X Unicode ASCII GBK等）

彻底弄懂python编码

88384758