Unicode和UTF-8有和区别?

ahansban

2019-06-25

本文作者 TomorrowWu,原创文章,转载注明出处,博客地址 https://segmentfault.com/u/to... 第一时间看后续精彩文章。觉得好的话,顺手分享到朋友圈吧,感谢支持。

关于字符集,之前一直就只知道写代码时成员间统一用UTF-8,就不会出现问题,也没有继续深入探讨,今天在网上搜了一些资料,总算弄清楚了,下面大致以简明的方式总结一下

简单来说:

Unicode是「字符集」
UTF-8 是「编码规则」

具体:

字符集:为每一个「字符」分配一个唯一的 ID（学名为码位 / 码点 / Code Point）
编码规则:将「码位」转换为字节序列的规则（编码/解码可以理解为加密/解密的过程）,主要是方便存储与读取,因为存在硬盘中都是二进制,编码规则就是为了解决如何断句的问题,同时也有利于最大化利用存储空间

Unicode 字符集为每一个字符分配一个码位，例如「知」的码位是 30693，记作 U+77E5（30693 的十六进制为 0x77E5）

广义Unicode

广义的 Unicode 是一个标准，定义了一个字符集以及一系列的编码规则，即 Unicode 字符集和 UTF-8、UTF-16、UTF-32 等等编码……

UTF-8 顾名思义，是一套以 8 位为一个编码单位的可变长编码。会将一个码位编码为 1 到 4 个字节：

U+ 0000 ~ U+ 007F: 0XXXXXXX
U+ 0080 ~ U+ 07FF: 110XXXXX 10XXXXXX
U+ 0800 ~ U+ FFFF: 1110XXXX 10XXXXXX 10XXXXXX
U+10000 ~ U+1FFFF: 11110XXX 10XXXXXX 10XXXXXX 10XXXXXX

根据上表中的编码规则，之前的「知」字的码位 U+77E5 属于第三行的范围：

7           7    E    5    
    0111 0111 1110 0101    二进制的 77E5
--------------------------
    0111   011111   100101 二进制的 77E5
1110XXXX 10XXXXXX 10XXXXXX 模版（上表第三行）
11100111 10011111 10100101 代入模版
   E   7    9   F    A   5

这就是将 U+77E5 按照 UTF-8 编码为字节序列 E79FA5 的过程。反之亦然

Unicode和UTF-8有和区别?

编码规则 unicode

ahansban

0 关注 0 粉丝 0 动态

相关推荐

python unicode和string byte

开发过程中总是会碰到string, unicode, ASCII, 中文字符等编码的问题, 每次碰到都要现搜, 很是浪费时间, 于是这次狠下心, 一定要搞清楚python 的string和Unicode到底怎么回事.Unicode就是为了统一各国各地区的编

doubinning 2019-12-29

Linux下文件名长度限制

出现场景：在迭代中有一个需求是将pdf文件名修改为所有班级的名称集合，出现的班级过多导致的文件名过长在linux下无法创建文件和文件夹的情况解决方式：经过查证，linux中文件名最长为255字符，文件路径最大长度为4096字符。所以需要对班级名称进行截断，

ahansban 2019-11-03

mysql字符集

ASCII字符集：共收录128个字符，包括空格、标点符号、数字、大小写字母和一些不可见字符。

sofast 2020-01-30

Protobuf-数据编码规则

文章是本人对官方文档的理解，可能理解有误，望指正。这里就要提到前面讲的标志位，Varints类型的每个字节都有两部分组成，高位的1bit是标志位，剩下的7bit可用用于表示整数。如果高位的1bit是1,下一个byte也被视为Varints的一部分，直至下一

Charlesbases 2019-11-03

Unicode编码详解

今天看到一个面试问题：Unicode 和 UTF-8 有何区别？我的简单理解就是Unicode 是字符集，而UTF-8是编码集/方式，之前在HTML字符集里总结过相关问题。但是今天搜索后又有一些更深的理解，这里记录下。把这些基础写了出来，是觉得就算是基础有

89781232 2018-02-20

基于maven和Jenkins, sonar打造持续集成环境

Sonar不只是一个质量数据报告工具，更是代码质量管理平台。支持的语言包括：Java、PHP、C#、C、Cobol、PL/SQL、Flex等。

yangbin 2014-10-25

Unicode编码详解

今天看到一个面试问题：Unicode 和 UTF-8 有何区别？我的简单理解就是Unicode 是字符集，而UTF-8是编码集/方式，之前在HTML字符集里总结过相关问题。但是今天搜索后又有一些更深的理解，这里记录下。把这些基础写了出来，是觉得就算是基础有

81580495 2018-02-20

JavaScript重构（四）：JavaScript编码规则

没有规矩，不成方圆，JavaScript带来了灵活性，也带来了不受控的变量和访问，所以要用规则限制它。一支成熟的团队，还是一支新鲜的团队，规则应当是不一样的，我只是列出一些常见的或者有效的办法，来约束跳跃的开发人员，思维可以任意飞跃，代码却要持续受控。当然

Dansha的花果山 2011-04-12

OpenSSL编码规则概述

1 数据编码格式openssl的数据编码规则是基于ans.1的，ans.1是什么 ?先上高大上的解释。openssl使用的是asn.1的der编码规则，保证每个asn.1对象使用der编码的出的二进制编码是唯一的。

waitwolf 2016-03-28

PHP正确解析UTF-8字符串技巧应用

在《学习PHP&MYSQL之――字符编码篇（一）》中介绍了Unicode与UTF-8的转换关系，总结了一个UTF-8的编码规则，根据这个编码规则，写一个UTF-8编码的解析程序，以下是PHP的实现：代码如下：。程序功能，$str是中英文混合的UTF

编程10000问 2019-03-27

编码与解码本质

编码与解码的本质问题1：计算机如何用0/1表示字符等人类能看懂的信息？为什么有编码/解码？前提，计算机只能处理二进制的0/1数据；但是人并不能看懂0101；计算机如何表示字符呢？于是乎就有了Unicode方案，UTF-8方案，GBK方案；编码和解码的存在就

辞客堂数位杂谈版 2018-03-21

ahansban

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号