unicode和utf-8编码区别

88540591

2019-10-24

以前使用Python2，一直为中文烦恼，也不知道为什么开头就要声明#coding=utf-8，后来用了Python3，发现就不用这样了，还是想彻底弄懂下这是为什么。

先讲asc码每个 ASC码占一个字节 1个字节=8个bit 也就是说ASC码最多只有256个表示中文肯定是不够的，所以后面就有了中文编码 gb2312，一个gb2312占用两个字节，但是中文有了日文韩文等也都有自己的编码，这个就很乱，后来就有了统一编码Unicode ，Unicode占用两个字节，但是代码一般都是英文的，占了两个字节多占用了一倍的存储，不利于传输和存储，于是就有了utf-8的格式可变长编码，utf-8英文占用1个字节，汉字占用三个字节。

我们用Python2的时候，汉字在Windows下默认是用的GB2312编码的，一般会申明都会带上一个小写的u，表示使用的是Unicode编码；所以Python经常会使用decode函数和encode函数，decode函数作用是将其他编码转换成Unicode，encode函数的作用是将Unicode转换成其他编码；如 s=“我爱Python”是gb2312编码，把它转换成utf-8编码就得使用 s.decode("GB2312").encode("utf-8")。如果在Python3中，它默认就是Unicode编码，就可以直接encode成utf-8格式了。

unicode 编码转换

88540591

0 关注 0 粉丝 0 动态

相关推荐

Golang 中的 Unicode 与 UTF-8

大多数的我们，真正认识到有字符编码这回事，一般都是因为遇到了乱码，因为我国常用的编码是 GBK 以及 GB2312：用两个 Byte 来表示所有的汉字，这样，我们一共可以表示 2^16 = 65536 个字符，一旦我们的 GBK 以及 GB2312 编

周游列国之仕子 2020-09-21

Golang中的Unicode与字符串示例详解

在我们使用Golang进行开发过程中，总是绕不开对字符或字符串的处理，而在Golang语言中，对字符和字符串的处理方式可能和其他语言不太一样，比如Python或Java类的语言，本篇文章分享一些Golang语言下的Unicode和字符串编码。被转换的整数值

89411051 2020-06-14

Windows 程序设计（三）关于字符串

C语言/C++语言，使用的字符串指针就是 char* 类型，C++中的字符串是 string，内部也是对 char* 的封装。操作系统的国际化，比如：Windows 系统不仅有英文的，也有中文的，韩文的，日文的，所以原来用一个 char 来表示一个英文字符

88384957 2020-06-12

SQL SERVER字符串前加N转换为Unicode编码

SQL SERVER搜索时select name=‘字符串‘时‘字符串‘默认会是ASCII码，而name一般是Unicode码，当‘字符串‘为中英文时，绝大部分ASCII码等于Unicode码，但如果‘字符串‘为中文生僻字，法文，韩文，日文等等情况‘字符串

84590091 2020-06-08

linux字符编码相关知识总结、file命令、iconv命令

现代计算机存储文件有很多种编码方式，各个计算机系统、程序支持的编码格式不尽相同。字符集指字符的集合，不同的字符集支持不同的语言，ASCII字符集就只支持英文。字符集有对应码表，用来查找字符和做编码转换等；不表示最终编码方式。字符编码是指将字符集和二进制数建

88540591 2020-06-01

Oracle字符集的设置

字符编码是一种法则，在数字与符号之间建立的对应关系。不同的国家有不同的语言，包含的文字、标点符号、图形符号各有不同。例如在ASCII编码中，用数字97表达字符‘a‘与字符集相对应，常见的字符编码有ASCII，GBK，GB18030，Unicode等。字符集

81214051 2020-04-25

CentOS7设置中文字符集

字符编码是一种法则，在数字与符号之间建立的对应关系。不同的国家有不同的语言，包含的文字、标点符号、图形符号各有不同。例如在ASCII编码中，用数字97表达字符‘a‘与字符集相对应，常见的字符编码有ASCII，GBK，GB18030，Unicode等。字符集

84590091 2020-04-22

python3字符串编码转换

编码转换：1、将文本已以二进制方式读取出来；2、将读取的二进制文本已改文本的编码方式进行解码成Unicode3、然后将解码后的Unicode编码成要转换的编码格式。s_gbk = s_unicode.encode # Unicode转换成gbk模式f =

84590091 2020-02-16

python3中的编码与解码原理

两位共可以表示16*16=256个数，即可以表示2^8=2568位的二进制数可以表示的数。再注意到‘\u4e2d\u6587‘直接输出和print都会出现“中文”二字，进一步说明python3中我们通常说的字符其实就是Unicode，将他们看成完全一样的就

GhostLWB 2019-12-15

Python3的unicode编码转换成中文问题

从别的地方搬过来的，担心以后不容易搜索到，就收集过来。我发过去的是utf-8编码，中间有中文，"新A1EY16"，结果发回来的却是："\u65b0A1EY16". 原创蓝一潇、薛定谔的猫发布于2019-02-09 0

88540591 2019-12-10

error C2665: “outtextxy”: 2 个重载中没有一个可以转换所有参数类型

一些程序在 VC6 下运行好好地，但是放到 VC2008 及更高版本 VC下编译却报错误，例如使用如下语句：。error C2665: ‘outtextxy‘ : none of the 2 overloads could convert all the

84590091 2019-11-09

python基础字符编码转换

#python2上所有的字符编码都需要先decode到unicode,再从unicode encode到目标编码。#二进制转换为字符串，使用decode，此处二进制的编码格式如果填写错误可能会导致二进制无法转换为字符串，导致程序报错。#python3上默认

JakobHu 2019-11-09

字符集详解

encoding 是 charset encoding 的简写，即字符集编码，简称编码。编号不涉及具体使用多少字节来表示、是用定长还是变长方案等细节问题。编号仅仅是一个抽象的概念，将具体字符映射到一个唯一的code上，是把字符数字化的一个过程。Unicod

80467305 2019-11-04

关于常见的编码的定义、关系以及使用场景（UTF-X Unicode ASCII GBK等）

*作为新手，初上手写代码，在开发过程中逐渐发现对于各种编码的属性和意义都有了更深入的理解，随之也更加不清楚各种编码之间的关系以及如何转换。本文章通过整理总结各种编码，帮助自己了解在各种环境下应该使用何种编码，希望以后不会再迷惑。所以UTF-X就是为了解决这

butterflyfly00 2019-11-04

基于php解决json_encode中文UNICODE转码问题

用PHP的json_encode来处理中文的时候, 中文都会被编码, 变成不可读的, 类似”\u***”的格式，如果想汉字不进行转码，这里提供三种方法

86530296 2020-11-10

Java 使用hutool工具类代替commons-text进行Json 中文 Unicode转换

中文转换Unicode，目前有两种方式，自写工具类或引入第三方包，这里我推荐引入三方包，因为使用mvn配置非常简单，网上搜到的大多数都是自己写的工具类，试了一个，效果不是很好，因为把ASCII编码也转成Unicode格式了，虽然能用，但是可读性降低。最终放

88540591 2020-06-16

MySQL 编码utf8 与 utf8mb4 utf8mb4_unicode_ci 与 utf8mb4_general_ci

utf8mb4 已成为 MySQL 8.0 的默认字符集，在MySQL 8.0.1及更高版本中将 utf8mb4_0900_ai_ci 作为默认排序规则。UTF-8 编码是一种变长的编码机制，可以用1~4个字节存储字符。因为历史遗留问题，MySQL 中的

mjshldcsd 2020-06-14

正则表达式：去除Unicode

* \p{L}或\p{Letter}：来自任何语言的任何形式的字母。* \p{Lu}或\p{Uppercase_Letter}：具有小写字母变体的大写字母。注意的是，正则中没有使用“\p{L}”，这是因为“\p{L}”也会过滤掉中文字符，需要注意

88540591 2020-06-04

cookbook-在正则中使用Unicode

<_sre.SRE_Match object; span=, match=‘???‘>

81214051 2020-06-03

ascii、unicode、utf-8、gbk

字节码是一种中间状态（中间码）的二进制代码（文件）。需要直译器转译后才能成为机器码。1字节 = 8 位位，数据存储是以“字节”为单位，数据传输是以大多是以“位”为单位，一个位就代表一个0或1，二进制是构成存储器的最小单位，utf-8 万国码的升级版

81214051 2020-06-01

88540591

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号