术语表

文本测量

字符编码

字符类型

文本处理

Token (令牌)

文本处理的最小单位。大语言模型使用独特的分词方案,与字符或单词不同。

文本截断

将文本按指定长度截断的处理。用于适应显示区域或数据库列的限制。

换行

将文本折行到下一行的处理。在 CSS 中通过 word-break 和 overflow-wrap 属性控制。

换行符

表示换行的控制字符。有 LF (Unix)、CR (旧 Mac) 和 CRLF (Windows) 三种类型。

Unicode 规范化

将同一字符的不同表示统一的处理。有 NFC、NFD、NFKC、NFKD 四种形式。

修剪 (Trim)

去除字符串前后空白的处理。大多数编程语言都提供标准方法。

转义序列

用于表示特殊字符的字符串。反斜杠后跟字符表示换行、制表符等控制字符。

字符串拼接

将多个字符串连接成一个字符串的操作,可通过 + 运算符、模板字面量等方式实现。

子字符串

从字符串中提取一部分的操作,可通过 slice、substring、substr 等方法实现。

字符串插值

通过模板字面量等语法将变量或表达式的值嵌入字符串中的处理方式。

填充 (Padding)

用特定字符填充字符串以达到指定长度的操作,通过 padStart 和 padEnd 方法实现。

Base64

一种将二进制数据转换为 ASCII 字符串的编码方式,使用 A-Z、a-z、0-9、+ 和 / 共 64 个字符。

百分号编码

一种在 URL 中使用 %XX 十六进制格式表示特殊字符的编码方式,也称为 URL 编码。

差异 (diff)

检测和显示两个文本之间差异的处理。是版本控制和代码审查的基础技术。

文本压缩

减小文本数据大小的技术。常用 gzip、Brotli 和 deflate 等算法。

编辑距离

两个字符串之间的编辑距离。将一个字符串转换为另一个所需的最少插入、删除和替换次数。

模糊匹配

搜索相似字符串而非精确匹配的技术。可处理拼写错误和拼写变体。

平台限制

国际化

正则表达式

自然语言处理

排版

数据格式

安全

无障碍