术语表

文本测量

字符编码

Unicode

一种通用字符编码标准,涵盖全球所有书写系统的 14 万多个字符。

UTF-8

一种可变长度的 Unicode 编码方式,是 Web 的标准字符编码,被超过 98% 的网站使用。

Shift_JIS

一种日语字符编码,在旧系统中广泛使用,正逐步被 UTF-8 取代。

ASCII

一种 7 位字符编码标准,可表示 128 个字符,包括英文字母、数字和基本符号。

UTF-16

一种使用 16 位编码单元的 Unicode 编码方式,被 JavaScript、Java 和 Windows 内部使用。

EUC-JP

一种在 UNIX 系统上广泛使用的日语字符编码,属于扩展 Unix 编码家族。

ISO-2022-JP

一种为电子邮件设计的日语编码,使用转义序列在字符集之间切换。

BOM (字节顺序标记)

文件开头的字节序列,用于标识编码类型。UTF-8 为 EF BB BF,UTF-16 为 FF FE 或 FE FF。

码位 (Code Point)

Unicode 中为每个字符分配的唯一编号,以 U+ 加十六进制数字表示,如 U+0041 (A)。

代理对 (Surrogate Pair)

UTF-16 中使用两个 16 位编码单元表示 BMP 之外字符的机制。

组合字符

与前面的基础字符组合显示的 Unicode 字符。包括变音符号和浊音符号等。

字节序

多字节数据的字节顺序。分为大端序和小端序两种。

字符集

特定字符的集合及其编号体系。ASCII、ISO 8859 和 Unicode 是代表性示例。

GSM-7 编码

SMS 中使用的 7 位字符编码,每条消息可容纳 160 个字符,支持英文字母、数字和基本符号。

乱码 (Mojibake)

由于文本数据的编码与解码方式不一致,导致原本的字符显示为无意义的符号或其他字符的现象。

字符编码

定义字符与比特序列对应关系的规则体系。由字符集 (定义包含哪些字符) 和编码方案 (定义如何转换为字节序列) 两个层次构成。

JIS (日本产业规格)

日本的工业产品国家标准。在字符编码领域,JIS X 0208 (基本日文字符集) 和 JIS X 0213 (扩展字符集) 构成了日文文本处理的基础。

可变长编码

不同字符使用不同字节数的编码方式。UTF-8 (1-4 字节) 和 Shift_JIS (1-2 字节) 是典型代表,通过用较短的字节序列表示高频字符来提高效率。

BMP (基本多文种平面)

Unicode 中最初的 65,536 个码位所在的区域。日常使用的绝大多数字符都收录于此。

字符类型

全角字符

在等宽字体中占据半角字符两倍宽度的字符。中日韩文字通常为全角。

半角字符

在等宽字体中占据全角字符一半宽度的字符。ASCII 字符属于半角。

平假名

日语表音文字之一,用于书写助词、动词词尾和日语固有词汇。

片假名

日语表音文字之一,主要用于书写外来词、拟声词和学术术语。

汉字

起源于中国的表意文字,在中文、日文和韩文中广泛使用。

书写素簇 (Grapheme Cluster)

人类视觉上认为是一个字符的最小显示单位,可能由多个码位组成。

表情符号 (Emoji)

Unicode 中收录的图形符号,用于在文本通信中直观地表达情感和概念。

罗马字 (Romaji)

使用拉丁字母表示日语发音的方式。赫本式和训令式是主要的两种系统。

零宽空格

显示宽度为零的不可见字符 (U+200B)。用作换行提示和文本处理控制。

变音符号

添加在字符上方或下方的辅助符号。表示发音差异,如重音符号和变音符号。

表意文字

文字本身承载含义的文字系统。汉字是典型代表,在 Unicode 中作为 CJK 统一表意文字收录。

ZWJ (零宽连接符)

Unicode 中的零宽控制字符 (U+200D),用于将多个字符或表情符号组合为一个显示单元。

异体字

含义和读音相同但字形不同的汉字变体。如「国」与「國」、「学」与「學」,涵盖正体字、俗体字、繁体字、简体字等关系。

控制字符

不在屏幕上显示,但用于指示文本处理方式的特殊字符。包括换行、制表符、空字符等。

不可见字符

存在于文本数据中但不在屏幕上显示的字符的统称。包括零宽空格、双向控制字符等,会影响字符计数结果。

常用汉字

日本文化审议会制定的日常生活中使用汉字的参考标准,共收录 2,136 个汉字。

字符类型

构成文本的字符分类。汉字、拉丁字母、数字、标点符号等不同类别,是输入验证和文本分析的基本单位。

文本处理

Token (令牌)

文本处理的最小单位。大语言模型使用独特的分词方案,与字符或单词不同。

文本截断

将文本按指定长度截断的处理。用于适应显示区域或数据库列的限制。

换行

将文本折行到下一行的处理。在 CSS 中通过 word-break 和 overflow-wrap 属性控制。

换行符

表示换行的控制字符。有 LF (Unix)、CR (旧 Mac) 和 CRLF (Windows) 三种类型。

Unicode 规范化

将同一字符的不同表示统一的处理。有 NFC、NFD、NFKC、NFKD 四种形式。

修剪 (Trim)

去除字符串前后空白的处理。大多数编程语言都提供标准方法。

转义序列

用于表示特殊字符的字符串。反斜杠后跟字符表示换行、制表符等控制字符。

字符串拼接

将多个字符串连接成一个字符串的操作,可通过 + 运算符、模板字面量等方式实现。

子字符串

从字符串中提取一部分的操作,可通过 slice、substring、substr 等方法实现。

字符串插值

通过模板字面量等语法将变量或表达式的值嵌入字符串中的处理方式。

填充 (Padding)

用特定字符填充字符串以达到指定长度的操作,通过 padStart 和 padEnd 方法实现。

Base64

一种将二进制数据转换为 ASCII 字符串的编码方式,使用 A-Z、a-z、0-9、+ 和 / 共 64 个字符。

百分号编码

一种在 URL 中使用 %XX 十六进制格式表示特殊字符的编码方式,也称为 URL 编码。

差异 (diff)

检测和显示两个文本之间差异的处理。是版本控制和代码审查的基础技术。

文本压缩

减小文本数据大小的技术。常用 gzip、Brotli 和 deflate 等算法。

编辑距离

两个字符串之间的编辑距离。将一个字符串转换为另一个所需的最少插入、删除和替换次数。

模糊匹配

搜索相似字符串而非精确匹配的技术。可处理拼写错误和拼写变体。

轻拂输入

一种日语智能手机输入法,通过在触摸屏上向四个方向轻拂按键来选择字符,比切换输入法更快。

验证 (Validation)

检验输入数据是否符合规定的格式、范围和约束条件的处理过程。包括字符数限制、字符类型检查、格式验证等。

占位符 (Placeholder)

显示在输入框中的临时提示文本,用于向用户展示输入内容的格式或示例。用户开始输入后自动消失。

大小写转换

将字母的大写和小写相互转换的处理。不同语言的转换规则各异,某些情况下转换还会导致字符数变化。

解析 (Parsing)

按照语法规则对文本数据进行分析,将其转换为结构化数据的处理过程。

分块 (Chunk)

将大型数据或文本分割成便于处理的小单元。广泛应用于 AI 的 token 限制应对、流式传输和文件传输等场景。

推敲与校对

为提升文章质量而进行的审阅工作。推敲侧重于表达的改进,校对侧重于错别字的修正。

OCR (光学字符识别)

从图像或扫描文档中自动识别文字,并将其转换为可编辑文本数据的技术。

预测输入

根据用户已输入的字符预测接下来要输入的词语或句子,并以候选列表形式呈现的功能。

文本编辑器

专门用于创建和编辑文本文件的软件。具备字符计数、查找替换、语法高亮等功能。

稿件

为印刷、出版、广播等目的而创作的文本原始数据。字数是衡量稿件篇幅的核心指标。

排序

将字符串按特定顺序重新排列的处理。由于不同语言和文化对正确顺序的定义各异,国际化场景中排序规则的配置至关重要。

平台限制

国际化

正则表达式

自然语言处理

排版

行高 (行距)

文本行与行之间的间距。通过 CSS 的 line-height 属性控制,对可读性有重大影响。

字体大小

文字的显示大小。在 CSS 中使用 px、em、rem、vw 等单位指定。

空白字符

空格、制表符、换行符等不可见字符。在文本处理和布局中发挥重要作用。

连字 (Ligature)

将两个或多个字符组合为一个字形显示的排版技法。常见例子包括 fi、fl 和 ff。

字距调整 (Kerning)

调整相邻字符间距的技法,根据字符组合实现视觉上均匀的间距。

对话框 (漫画气泡)

漫画和聊天界面中包围角色对话的图形元素。有限空间内的字数限制与设计密切相关。

注音标注 (Ruby Annotation)

为汉字或外来词标注读音而在目标文字上方 (横排) 或右侧 (竖排) 附加的小号文字。在 HTML 中通过 元素实现。

字符宽度

文本显示中每个字符在水平方向上占据的空间大小。包括全角 (2 列宽) 与半角 (1 列宽) 的区分,以及比例字体中的可变宽度。

标点符号

文章中使用的句号、逗号、括号、引号、感叹号等符号的统称。不同语言和地区的标点种类、用法和字符宽度各不相同。

竖排

文本从上到下书写、行从右到左排列的书写方向。中文、日文等语言传统上使用竖排,可通过 CSS 的 writing-mode 实现。

自动换行

当文本超出显示区域宽度时,自动折到下一行的处理。按单词边界还是字符边界换行,取决于语言和设置。

引号

文本中用于标示引用、对话、强调等的符号。不同语言和地区使用不同形式的引号。

连字符与破折号

文本中用于连接单词、表示范围、分隔插入语等的横线符号。连字符、半角破折号、全角破折号虽然外观相似,但在 Unicode 中是不同的字符。

字体

定义文字视觉设计的数据集。字体的选择直接影响文字的显示宽度和可读性。

缩进

在文本行首插入空白,以视觉方式标示段落起始或层级结构的排版格式。中文写作中段首缩进两个全角字符是标准格式。

字间距

文本中字符与字符之间的间隔。通过 CSS 的 letter-spacing 属性控制,影响可读性和设计风格。

数据格式

安全

无障碍