MySQL字符集是什么？字符集的相关介绍

椰风海韵

2018-12-11

字符集介绍

gbk/gb2312
gbk/gb2312
采用双字节字符集，不论中、英文字符均使用双字符来表示，为了区分中文，将其最高位都设定成1
gb2312是gbk的子集，gbk是gb18030的子集，gb2312仅能存储简体中文字符
gbk包括中日韩字符的大字符集
通常使用gbk字符集足够
国际通用性比utf8差，不过utf8占用的数据库比gbk大(utf8是三字节字符集)
utf8/utf8mb4
UTF全称(Unicode Transformation Format)，是Unicode的一种存储方式，可变长度字符编码，又称万国码；
数据库字符集尽量使用utf8(包括 connect、result、及最终html页面都必须要求一致为utf8)；
UTF8使用可变长度字节来存储 Unicode字符，例如 ASCII字母继续使用1个字节存储，重音文字、希腊字母、或西里尔字母等使用2个字节来存储，而常用的汉字就要用3个字节；也就是一个英文字符等于一个字节，一个中文（含繁体）等于三个字节。
utf8mb4一个字符最多能存4字节，所以能支持更多的字符集；项目中常用utf8mb4存放emoji表情；
latin1是8bit (1 bytes)字符集，但不能覆盖亚洲、非洲语言；
unidoce是latin1的扩展，增加了亚洲、非洲常规语言支持，但仍不支持全部语言，且ASCII用unidoce来表示效率不高(小字符集转换成大字符集,往往便随的就是字符的丢失)；
utf8是unicode的扩展；
gbk、gb2312等字符集与utf8之间都必须通过Unicode编码才能相互转换。

字符集使用建议

1、非常肯定只有中文终端用户时，可选择gbk / gb2312

2、为了方便数据迁移、以及多种终端展示，最好是utf8

3、字符无需区分大小写时，采用默认的xx_ci校验集可以，否则选择xx_bin校验集(生产环境中,尽量不要修改校验集)

4、默认字符集是latin1，该字符集存放汉字是分开存放，以至于检索结果时不够精确，好处就是节省空间，不推荐使用

MySQL字符集范围

服务器层(server) > 数据库成(database) > 数据表(table) > 字段(column) > 连接(connection) | 结果集(result)

MySQL字符集优先级

连接(connection) | 结果集(result) > 字段(column) > 数据表(table) > 数据库成(database) > 服务器层(server)

char类型

char(N)：N代表的是字符个数(也叫字符长度)、而非bytes

char(N)：是固定长存储,占用定长的存储空间,不足的部分用空格填充；MySQL处理char(N)类型时，需要将空格strip掉后return。

存储空间：char(N)类型的存储空间和字符集有关系，结合刚才字符集的知识点，一个中文在utf8字符集中占用3个bytes、gbk占用2个bytes、数字和字符统一用一个字符表示。

存储机制：在不够N长度时，MySQL在存储数据时，需要用填充特殊的空格，而非十六进制的20

思考：

char(30)，在不同的字符集中最多能存放多少个字母、汉字，以及占用空间情况

gbk：可以存放30个字节占用的空间30*2utf8：可以存放30个字节占用的空间30*3

varcahr类型

varchar(N)：N代表的是字符个数(也叫字符长度)、而非bytes

varchar(N)：是变长存储,仅使用必要的存储空间.

存储空间：varchar(N)类型的存储空间和字符集有关系，结合刚才字符集的知识点，一个中文在utf8字符集中占用3个bytes、gbk统一占用2个bytes、数字和字符一个字符表示。

存储机制：varchar(N)字段存储实际是从第二个字节开始存储,然后用1到2个字节表示实际长度,剩下的才是可以存储数据的范围,因此最大可用存储范围是65535-3=65532字节;第一个字节标识是否为空.(长度小于255字节,使用一个字节来表示长度;大于255字节使用两个字节来表示长度)

修改数据库实例字符集

临时生效

mysql> set character_set = 'gbk';

mysql> set character_set_client = 'gbk';

全局生效

mysql> set global character_set_client = 'gbk';

Query OK, 0 rows affected (0.00 sec)

永久生效

vim /etc/my.cnf

character-set-server=utf8

utf8 gbk gb2312 字符编码字符 bytes mysql unicode mysql数据库

椰风海韵

0 关注 0 粉丝 0 动态

相关推荐

使用AJAX实现UTF8编码表单提交到GBK编码脚本无乱码的解决方法

<li><a href="utf8Form.html" rel="external nofollow" rel="external nofollow" rel="ext

learningever 2020-09-19

ascii、unicode、utf-8、gbk

字节码是一种中间状态（中间码）的二进制代码（文件）。需要直译器转译后才能成为机器码。1字节 = 8 位位，数据存储是以“字节”为单位，数据传输是以大多是以“位”为单位，一个位就代表一个0或1，二进制是构成存储器的最小单位，utf-8 万国码的升级版

81214051 2020-06-01

Linux 中文乱码

打开vim的配置文件，位置在/etc/vim/vimrc

xujidong0 2013-04-03

python基础字符编码转换

#python2上所有的字符编码都需要先decode到unicode,再从unicode encode到目标编码。#二进制转换为字符串，使用decode，此处二进制的编码格式如果填写错误可能会导致二进制无法转换为字符串，导致程序报错。#python3上默认

JakobHu 2019-11-09

MySQL 编码utf8 与 utf8mb4 utf8mb4_unicode_ci 与 utf8mb4_general_ci

utf8mb4 已成为 MySQL 8.0 的默认字符集，在MySQL 8.0.1及更高版本中将 utf8mb4_0900_ai_ci 作为默认排序规则。UTF-8 编码是一种变长的编码机制，可以用1~4个字节存储字符。因为历史遗留问题，MySQL 中的

mjshldcsd 2020-06-14

utf8字符集下的比较规则

在MySQL中，比较常用的字符集是utf8和utf8mb4。这两个字符集是类似的，utf8是utf8mb3的别名，所以之后在MySQL中提到utf8就意味着使用1~3个字节来表示一个字符，如果大家有使用4字节编码一个字符的情况，比如存储一些emoji表情啥

88384957 2020-03-27

Notepad++ 使用Python 插件批量转换文本文件（字幕文件）为 UTF8

有时候从网上下载了中英文的字幕文件，字符编码是ANSI的，需要转换为UTF-8的编码格式。可以实现批量转换。在Search搜索框中输入：Python Script , 然后选择插件，再点击Install 安装。然后找到刚才保存的脚本，并执行。如果Pytho

学习备忘录 2020-01-04

mysql建数据库的字符集与排序规则

一般选择utf8.下面介绍一下utf8与utfmb4的区别。utf8mb4兼容utf8，且比utf8能表示更多的字符。unicode编码区从1 ～ 126就属于传统utf8区，当然utf8mb4也兼容这个区，126行以下就是utf8mb4扩充区，什么时候你

sofast 2019-12-29

utf8和utf8mb4的区别

MySQL在5.5.3之后增加了这个utf8mb4的编码，mb4就是most bytes 4的意思，专门用来兼容四字节的unicode。好在utf8mb4是utf8的超集，除了将编码改为utf8mb4外不需要做其他转换。当然，为了节省空间，一般情况下使用u

88540591 2019-12-26

MySQL乱码的原因和设置UTF8数据格式

MySQL使用时，有一件很痛苦的事情肯定是结果乱码。将编码格式都设置为UTF8可以解决这个问题，我们今天来说下为什么要这么设置，以及怎么设置。在编程语言中，我们为了防止中文乱码，会使用unicode对中文字符做处理，而为了降低网络带宽和节省存储空间，我们使

xiaobaif 2019-12-20

python2与python3编码（练习）

#_author:来童星#date:2019/12/9import jsons=‘star‘a=s.encode(‘utf8‘)print(s,type(s))# star <class ‘str‘>print(a.decode(‘utf8‘)

fgleeldq 2019-12-09

写代码注意了，千万不要在 MySQL 中使用 UTF-8

MySQL数据库一知半解？阿里架构师写得高性能MySQL文档你不能错过。正文开始：最近我遇到了一个bug，我试着通过Rails在以“utf8”编码的MariaDB中保存一个UTF-8字符串，然后出现了一个离奇的错误：。问题的症结在于，MySQL的“utf8

huaishuming 2019-12-07

实战经验：Mysql 字符集及排序规则

MySQL新建数据库时，字符集和排序规则如何选择？本文来简单总结一下。通常，为了统一前后端编码，尤其是设计到源代码、页面文件、页面输入以及数据库字符集等，若不相统一，往往会照成莫名其妙的乱码现象。总结排序规则是指对特定字符集下不同字符的比较规则。也可以简单

everlasting 2019-11-28

Python中 sys.setdefaultencoding(\"utf8\") 的作用详解

设置python默认字节流编/解码器按照utf8解码方式，把字节流编/解码为unicode；在将字节流使用str()方法转换为str对象时，会调用默认的encode函数，如果没有上述系统的默认编码设置，则自动使用‘ascii‘ codecs进行编码，对于非

88384957 2019-11-09

MySQL字符集utf8修改为utf8mb4

对于mysql 5.5 而言，如果不设定字符集，mysql默认的字符集是 latin1 拉丁文字符集；utf8mb4兼容utf8，且比utf8能表示更多的字符，是utf8字符集的超集。当然调整的最好方法是客户端，mysql数据库的字符集都修改为utf8mb

lpfvip00 2019-11-09

Golang 中的 Unicode 与 UTF-8

大多数的我们，真正认识到有字符编码这回事，一般都是因为遇到了乱码，因为我国常用的编码是 GBK 以及 GB2312：用两个 Byte 来表示所有的汉字，这样，我们一共可以表示 2^16 = 65536 个字符，一旦我们的 GBK 以及 GB2312 编

周游列国之仕子 2020-09-21

Marshal.PtrToStringAnsi中文乱码

查看内存后知道内存编码是UTF8，Marshal不支持UTF转换，所以必须先转成Unicode再转成UTF8

81214051 2020-01-28

MySQL 的 utf8_general_ci 和 utf8_unicode_ci 有什么区别，应如何选择？

首先就其准确性说，这世界上有无数种文字，除了通用的英文使用我们较熟悉的 A-Z 字符外，还有很多种近似的写法用于法文、德文、俄文等等…光是一个 A 字就有数十种不同表现为什么不都用同一种 A 呢，几十种多麻烦啊。事实上，它们在所属的文字上都各有意义，可能代

xiaobaif 2020-01-09

PHP dirname(FILE)原理及用法解析

即使这个文件被其他文件引用，__file__始终是它所在文件的完整路径，而不是引用它的那个文件完整路径。dirname;得到的是__FILE__所在文件的上一层目录名。_FILE_ 得到的就是完整路径即 F:\Modoer_2.6_SC_UTF8\upl

wwwsurfphpseocom 2020-10-28

JVM系列之:String.intern和stringTable

它和String.intern有什么关系呢？在字符串对象的创建过程中，StringTable有起到了什么作用呢？一切的答案都在本文中，快来看看吧。intern是String类中的一个native方法，所以它底层是用c++来实现的。感兴趣的同学可以去查看下J

voiletbin 2020-07-26

椰风海韵

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号