漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码

内容分享3周前发布
0 19 0

作者 | 漫话编程

来源 | 漫话编程(ID:mhcoding)

漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码

MySQL是一种关系型数据库,这个大家肯定都不陌生,使用MySQL创建数据库的时候,大家需要指定一种编码方式。

许多时候,大家基于自己对编码方式的了解,会认为UTF-8是一种通用的编码方式,所以大多数时候会默认选择这种编码方式。

但是,这往往会给你的数据库埋下一个大坑!!!

漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码

MySQL对Unicode的支持

Unicode字符集,他目前已经是计算机科学领域里的一项业界标准,它对世界上大部分的文字系统进行了整理、编码,使得计算机可以用更为简单的方式来呈现和处理文字。

为了适应不同的数据存储和传递需求,人们提出了 Unicode Transformation Format(UTF)系列编码。这其中包含UTF-8、UTF-16、UTF-32等。

通过查阅MySQL官方文档(
https://dev.mysql.com/doc/refman/8.0/en/charset-unicode.html ),我们可以知道,在MySQL中,主要支持以下字符集:utf8、ucs2、utf8mb3、utf8mb4、utf16、utf16le和utf32

不同的字符集的区别在于包含的字符情况以及存储需要的空间。

漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码

在MySQL官方文档中,介绍了支持的编码方式之后,还有一段醒目的提醒:

漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码

翻译过来是:utf8mb3字符集已被弃用,它在未来的MySQL版本中将会被删除,请使用utf8mb4取代。在目前的8.0版本中,utf8指的就是utf8mb3,虽然未来可能改成utf8mb4,但是为了避免产生歧义,可以思考为字符集引用显式指定utf8mb4,而不是utf8。

也就是说,当我们在MySQL 8.0 中指定字符编码方式为UTF-8的时候,实则使用的是utf8mb3这种编码方式。

那么,我们先来说说utf8mb3。

漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码

utf8mb3

utf8mb3字符集是MySQL早期就支持的字符集,他具有以下特征:

1、仅支持BMP字符(不支持补充字符)

2、每个多字节字符最多需要三个字节

注意,仅支持BMP字符,那么什么是BMP字符呢?

BMP是Basic Multilingual Plane的缩写,即码位在0到65535之间(或者U+0000和U+FFFF)的字符。

BMP中并不包含补充字符,即码位在U+10000和U+10FFFF之间的的字符。补充字符有哪些呢,如一些生僻的汉字,或者Emoji 表情等都是补充字符。

也就是说,如果在建表的时候,指定的编码方式是utf8mb3(utf-8),那么对于一些生僻字或者emoji表情都无法表明。

漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码

utf8mb4

早期的时候,Unicode 只用到了 0~0xFFFF 范围的数字编码,这就是 BMP 字符集。所以,最初MySQL在设计之初,也就只涉及了包含BMP 字符集的utfmb3(utf-8),但是随着文字越来越多,3个字节肯定无法全部表明,于是Unicode支持的字符就更多了。

所以,早期的utfmb3在有些场景中就不能满足需求了,于是,MySQL在5.5.3之后增加了utf8mb4的编码。

utfmb4字符集具有以下特征:

1、支持BMP和补充字符。

2、每个多字节字符最多需要4个字节。

utf8mb4与utf8mb3字符集不同,utf8mb3字符集只支持BMP字符,每个字符最多使用三个字节:

对于BMP字符,utf8mb4和utf8mb3具有一样的存储特征,即一样的编码值,一样的编码,一样的长度。

对于补充字符,utf8mb4需要4个字节来存储它,而utf8mb3根本不能存储该字符。所以我们说utf8mb4是utf8mb3的超集。

所以,许多时候,为了思考到兼容性,提议创建MySQL表的时候,使用utf8mb4,而不是utf8!

utf8mb3和utf8mb4区别及优缺点

前面分别介绍了utf8mb3和utf8mb4字符集,他们的区别如下:

utf8mb3只支持BMP (Basic Multilingual Plane)的字符。utf8mb4还支持BMP之外的补充字符。

utf8mb3每个字符最多使用3个字节。Utf8mb4每个字符最多使用4个字节。

utf8mb4比utf8mb3来说,他能表明更多的补充字符,但是同时占用的空间可能会更大一些。

漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码

从utf8mb3转换成utf8mb4

第一,想要把字符集从utf8mb3转换到utf8mb4,实则是问题不大的:

对于BMP字符,utf8mb4和utf8mb3具有一样的存储特征:一样的编码值,一样的编码,一样的长度。

对于补充字符,utf8mb4需要4个字节来存储它,而utf8mb3根本不能存储该字符。当将utf8mb3列转换为utf8mb4时,您不必担心转换补充字符,由于没有补充字符。

假设有一张已知表使用了utf8mb3:

CREATE TABLE t1 ( col1 CHAR(10) CHARACTER SET utf8 COLLATE utf8_unicode_ci NOT , col2 CHAR(10) CHARACTER SET utf8 COLLATE utf8_bin NOT ) CHARACTER SET utf8;

下面的语句将t1转换为utf8mb4:

ALTER TABLE t1 DEFAULT CHARACTER SET utf8mb4, MODIFY col1 CHAR(10) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci NOT , MODIFY col2 CHAR(10) CHARACTER SET utf8mb4 COLLATE utf8mb4_bin NOT ;

漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码

© 版权声明

相关文章

19 条评论

您必须登录才能参与评论!
立即登录
  • 头像
    好勵志啊_zz1 投稿者

    把后台黑掉就可以了。

    无记录
  • 头像
    桑菊 读者

    为什么程序员会有女朋友

    无记录
  • 头像
    椰子味的粥嘟嘟 读者

    早就发现,为此还引发不少问题,程序偶然性莫名奔溃。折腾好久处理了才找到原因,mysql数据utf8格式保存不了表情元素。等到现在才说,太迟。。

    无记录
  • 头像
    旧友 读者

    不太可能讲清楚的,讲个for语句就累死了

    无记录
  • 头像
    史先生 读者

    编码这种东西为什么不能逐渐的简化统一呢

    无记录
  • 头像
    狗子东 读者

    为什么我看的电影有乱码?

    无记录
  • 头像
    每秒的小日子 读者

    来了一群鸡鸭鹅,箱子只能装鸡鸭。第一只鹅之前都没问题,鹅少屁股,屁股在下一个箱子。下一个箱子在装鸡鸭,也会少屁股,如此循环,全全乱了。折衷办法是,每个箱子从鸡头鸭头鹅头起装,于是鸡鸭不乱,鹅乱!

    无记录
  • 头像
    易哭又爱傻笑的女孩 读者

    那你女朋友又问:为啥有点电影有马赛克 ,这个是UTF几的问题?

    无记录
  • 头像
    陈金海 读者

    你先告诉我为什么要给她解释这个?

    无记录
  • 头像
    薄荷苏叶 读者

    你们都不用utf-8mb4?

    无记录
  • 头像
    唯有时间不可负 读者

    现在女大学生的毕业比例已经超过男大学生了,读博读研女性比例也大的很。但是程序员方面,女性比例明显低于男性,有点奇怪。

    无记录
  • 头像
    直男什么值得买 投稿者

    我们用的就是utf8

    无记录
  • 头像
    侄女天菜 读者

    Mark

    无记录
  • 头像
    木子 读者

    下次直接存字节流,要什么编码现转

    无记录
  • 头像
    这个世界是一个巨大的晏晏头 读者

    阿里云虚拟机不新的标准

    无记录
  • 头像
    余生 读者

    字多不看。我自己搞了几个游戏私服一键端才知道myslq这玩意其他啥也不懂

    无记录
  • 头像
    帮主说经济 读者

    开篇有问题,如果数据库编码有问题,压根就不可能存呀,何来的乱码?

    无记录
  • 头像
    是李sy的好朋友 读者

    utf8编码能到6字节,为啥mysql只到3字节和4字节

    无记录
  • 头像
    盒包蛋大王 投稿者

    csdn还没倒闭呢

    无记录