书写素簇 (Grapheme Cluster)

人类视觉上认为是一个字符的最小显示单位,可能由多个码位组成。

书写素簇是人类视觉上认为是一个字符的最小显示单位。一个书写素簇可能由一个或多个 Unicode 码位组成。

例如,日语字符"が"可以由"か" (U+304B) 和浊点 (U+3099) 两个码位组成。国旗表情 🇯🇵 是两个区域指示符码位的组合。Unicode 文本处理书籍详细解释了书写素簇。

要准确计算"可见字符数",需要计算书写素簇数而非码位数。JavaScript 的 Intl.Segmenter API 可以实现书写素级别的分割。

准确的字符计数工具必须正确处理书写素簇。国际化编程书籍将书写素簇作为关键话题进行了讲解。