字符集

特定字符的集合及其编号体系。ASCII、ISO 8859 和 Unicode 是代表性示例。

字符集是特定字符的集合以及分配给每个字符的码点 (编号) 体系。ASCII 定义了 128 个字符,ISO 8859-1 定义了 256 个,Unicode 定义了超过 14 万个。

字符集和字符编码是不同的概念。字符集定义"哪个字符分配什么编号",编码定义"该编号如何用字节序列表示"。字符编码详解书籍提供了系统介绍。

HTML 的 <meta charset="UTF-8"> 严格来说指定的是字符编码,但由于历史原因使用了 charset (字符集) 这个名称。

在字符计数中,使用的字符集决定了可表示字符的范围。ASCII 无法表示日语,而 Unicode 可以处理世界各地的字符。国际化与字符编码书籍提供了更多背景知识。