当前位置: 首页 > 编程笔记 >

全面了解mysql中utf8和utf8mb4的区别

盖泽宇
2023-03-14
本文向大家介绍全面了解mysql中utf8和utf8mb4的区别,包括了全面了解mysql中utf8和utf8mb4的区别的使用技巧和注意事项,需要的朋友参考一下

一、简介

MySQL在5.5.3之后增加了这个utf8mb4的编码,mb4就是most bytes 4的意思,专门用来兼容四字节的unicode。好在utf8mb4是utf8的超集,除了将编码改为utf8mb4外不需要做其他转换。当然,为了节省空间,一般情况下使用utf8也就够了。

二、内容描述

那上面说了既然utf8能够存下大部分中文汉字,那为什么还要使用utf8mb4呢? 原来mysql支持的 utf8 编码最大字符长度为 3 字节,如果遇到 4 字节的宽字符就会插入异常了。三个字节的 UTF-8 最大能编码的 Unicode 字符是 0xffff,也就是 Unicode 中的基本多文种平面(BMP)。也就是说,任何不在基本多文本平面的 Unicode字符,都无法使用 Mysql 的 utf8 字符集存储。包括 Emoji 表情(Emoji 是一种特殊的 Unicode 编码,常见于 ios 和 android 手机上),和很多不常用的汉字,以及任何新增的 Unicode 字符等等。

三、问题根源

最初的 UTF-8 格式使用一至六个字节,最大能编码 31 位字符。最新的 UTF-8 规范只使用一到四个字节,最大能编码21位,正好能够表示所有的 17个 Unicode 平面。

utf8 是 Mysql 中的一种字符集,只支持最长三个字节的 UTF-8字符,也就是 Unicode 中的基本多文本平面。

Mysql 中的 utf8 为什么只支持持最长三个字节的 UTF-8字符呢?我想了一下,可能是因为 Mysql 刚开始开发那会,Unicode 还没有辅助平面这一说呢。那时候,Unicode 委员会还做着 “65535 个字符足够全世界用了”的美梦。Mysql 中的字符串长度算的是字符数而非字节数,对于 CHAR 数据类型来说,需要为字符串保留足够的长。当使用 utf8 字符集时,需要保留的长度就是 utf8 最长字符长度乘以字符串长度,所以这里理所当然的限制了 utf8 最大长度为 3,比如 CHAR(100) Mysql 会保留 300字节长度。至于后续的版本为什么不对 4 字节长度的 UTF-8 字符提供支持,我想一个是为了向后兼容性的考虑,还有就是基本多文种平面之外的字符确实很少用到。

要在 Mysql 中保存 4 字节长度的 UTF-8 字符,需要使用 utf8mb4 字符集,但只有 5.5.3 版本以后的才支持(查看版本: select version();)。我觉得,为了获取更好的兼容性,应该总是使用 utf8mb4 而非 utf8. 对于 CHAR 类型数据,utf8mb4 会多消耗一些空间,根据 Mysql 官方建议,使用 VARCHAR 替代 CHAR。

以上这篇全面了解mysql中utf8和utf8mb4的区别就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持小牛知识库。

 类似资料:
  • MySQL中的和字符集有什么区别? 我已经知道ASCII、UTF-8、UTF-16和UTF-32编码;但是我很想知道组编码与MySQL Server中定义的其他编码类型有什么区别。 使用而不是有什么特别的好处/建议吗?

  • 问题内容: 和 MySQL中的字符集有什么区别? __ 我已经知道 ASCII , UTF-8 , UTF-16 和 UTF-32 编码;但是我很好奇知道编码组与 MySQL Server中 定义的其他编码类型有什么区别。 使用而不是有什么特别的好处/提议吗? 问题答案: UTF-8是可变长度编码。对于UTF-8,这意味着存储一个代码点需要1-4个字节。但是,MySQL的编码称为“ utf8”(别

  • 本文向大家介绍全面了解addEventListener和on的区别,包括了全面了解addEventListener和on的区别的使用技巧和注意事项,需要的朋友参考一下 为什么需要addEventListener? 先来看一个片段: html代码 <div id="box">追梦子</div> 用on的代码 看到了吧,第二个onclick把第一个onclick给覆盖了,虽然大部分情况我们用on就可以

  • 当我想用PHPMyAdmin将MySQL字符集从utf8(utf8\u general\u ci)更改为utf8mb4(utf8\u unicode\u ci)时,我做这些事情就足够了吗? 将数据库归类更改为utf8_unicode_ci 将表排序规则更改为utf8_unicodel_ci 将每个文本列更改为utf8_unicodel_ci 将我的PHP代码中的set_charset更改为utf8

  • 本文向大家介绍全面了解#pragma once与 #ifndef的区别,包括了全面了解#pragma once与 #ifndef的区别的使用技巧和注意事项,需要的朋友参考一下 为了避免同一个文件被include多次 1   #ifndef方式 2   #pragma once方式 在能够支持这两种方式的编译器上,二者并没有太大的区别,但是两者仍然还是有一些细微的区别。 方式一: #ifndef _

  • 我刚刚将我的mysql数据库从utf8转换为utf8mb4,以便支持Emojis,但现在我有一个编码问题。如果我用php打印文本,通常会显示特殊字符,但它们会在数据库中保存为LATIN1ü 我遵循这个指南https://mathiasbynens.be/notes/mysql-utf8mb4 在php中,我在建立连接后设置了这样的字符集 在转换之前,ä被保存为ä,ö被保存为ö等等。 现在它:ü-