UTF-8

一种可变长度的 Unicode 编码方式,是 Web 的标准字符编码,被超过 98% 的网站使用。

UTF-8 是一种可变长度的 Unicode 字符编码。它在保持与 ASCII 向后兼容的同时,支持 Unicode 标准中的所有字符。超过 98% 的网页使用 UTF-8。

UTF-8 对不同字符使用不同的字节长度:ASCII 占 1 个字节,扩展拉丁字符占 2 个字节,中日韩字符占 3 个字节,表情符号占 4 个字节。Web 技术书籍将 UTF-8 作为开发者的必备知识进行了讲解。

在 HTML 中,<meta charset="UTF-8"> 声明字符编码。缺少此声明可能导致乱码。

数据库应使用 utf8mb4 (UTF-8 的变体) 来存储包括表情符号在内的所有 Unicode 字符。字符编码书籍深入介绍了 UTF-8 的内部机制。