实战经验:Mysql 字符集及排序规则
MySQL新建数据库时,字符集和排序规则如何选择?本文来简单总结一下。
字符集与排序规则
一、字符集
字符集:就是用来定义字符在数据库中的编码的集合。
常见的字符集:utf8、Unicode、GBK、GB2312(支持中文)、ASCCI(不支持中文)
通常,为了统一前后端编码,尤其是设计到源代码、页面文件、页面输入以及数据库字符集等,若不相统一,往往会照成莫名其妙的乱码现象。现在很多工具都默认为utf8,所以,若无特别需求,一般就用utf8就足矣了 。我这里用的是utf8字符集。
二、字符集排序规则
我们在创建mysql数据库是,通常还有一个选项,就是选择数据库的排序规则。类似如下:
数据库字符集及排序规则
本人用的是utf8_general_ci。简单介绍一下。
- 后缀ci (case insensitive)意味不区分大小写(大小写不敏感),后缀cs (case sensitive)区分大小写(大小写敏感)
- utf8_bin 规定每个字符串用二进制编码存储,区分大小写,可以直接存储二进制的内容
- 如在ci情况下:select name,age from user; 等价于SELECT NAME,AgE FROM user; 大小写字符判断是一样的
- 而在cs情况下:假设字段名严格为name, age,表名:User。那么就必须:select name,age from User; 大小写字符判断有区分
- 而bin意思是二进制,所以小写u和大写U会被区别
例如你运行:
SELECT name FROM UseI WHERE name = 'Solo'
那么在utf8_bin中你就找不到 name = 'solo' 的那一行, 在utf8_general_ci 下可以。
1. utf8_general_ci 不区分大小写,这个你在注册用户名和邮箱的时候就要使用。
2. utf8_general_cs 区分大小写,如果用户名和邮箱用这个 就会照成不良后果
3. utf8_bin:字符串每个字符串用二进制数据编译存储。 区分大小写,而且可以存二进制的内容
查询示例
utf8_unicode_ci和utf8_general_ci对中、英文来说没有实质的差别。
utf8_general_ci校对速度快,但准确度稍差。
utf8_unicode_ci准确度高,但校对速度稍慢。
utf8_unicode_ci比较准确,utf8_general_ci速度比较快。通常情况下 utf8_general_ci的准确性就够我们用的了,在我看过很多程序源码后,发现它们大多数也用的是utf8_general_ci,所以新建数据 库时一般选用utf8_general_ci就可以了。 如果应用有德语、法语或者俄语,请一定使用utf8_unicode_ci;否则 utf8_general_ci 就够了,