术语表
文本测量
字符数
文本中包含的字符总数,是否包含空格取决于具体场景。
字节数
文本数据编码后的字节大小。相同字符在不同编码下字节数可能不同。
单词数
文本中包含的单词数量。英文按空格分隔计数,中文需要分词处理。
阅读时间
阅读完一段文本所需的预估时间,根据字数或单词数计算得出。
段落数
文本中段落的数量,用作文本结构和可读性的衡量指标。
句数
文本中句子的数量。以句号、问号和感叹号等句末标点分隔计数。
可读性评分
量化文本可读性的数值指标。Flesch Reading Ease 和 Flesch-Kincaid Grade Level 是代表性示例。
字符编码
Unicode
一种通用字符编码标准,涵盖全球所有书写系统的 14 万多个字符。
UTF-8
一种可变长度的 Unicode 编码方式,是 Web 的标准字符编码,被超过 98% 的网站使用。
Shift_JIS
一种日语字符编码,在旧系统中广泛使用,正逐步被 UTF-8 取代。
ASCII
一种 7 位字符编码标准,可表示 128 个字符,包括英文字母、数字和基本符号。
UTF-16
一种使用 16 位编码单元的 Unicode 编码方式,被 JavaScript、Java 和 Windows 内部使用。
EUC-JP
一种在 UNIX 系统上广泛使用的日语字符编码,属于扩展 Unix 编码家族。
ISO-2022-JP
一种为电子邮件设计的日语编码,使用转义序列在字符集之间切换。
BOM (字节顺序标记)
文件开头的字节序列,用于标识编码类型。UTF-8 为 EF BB BF,UTF-16 为 FF FE 或 FE FF。
码位 (Code Point)
Unicode 中为每个字符分配的唯一编号,以 U+ 加十六进制数字表示,如 U+0041 (A)。
代理对 (Surrogate Pair)
UTF-16 中使用两个 16 位编码单元表示 BMP 之外字符的机制。
组合字符
与前面的基础字符组合显示的 Unicode 字符。包括变音符号和浊音符号等。
字节序
多字节数据的字节顺序。分为大端序和小端序两种。
字符集
特定字符的集合及其编号体系。ASCII、ISO 8859 和 Unicode 是代表性示例。
字符类型
全角字符
在等宽字体中占据半角字符两倍宽度的字符。中日韩文字通常为全角。
半角字符
在等宽字体中占据全角字符一半宽度的字符。ASCII 字符属于半角。
平假名
日语表音文字之一,用于书写助词、动词词尾和日语固有词汇。
片假名
日语表音文字之一,主要用于书写外来词、拟声词和学术术语。
汉字
起源于中国的表意文字,在中文、日文和韩文中广泛使用。
书写素簇 (Grapheme Cluster)
人类视觉上认为是一个字符的最小显示单位,可能由多个码位组成。
表情符号 (Emoji)
Unicode 中收录的图形符号,用于在文本通信中直观地表达情感和概念。
罗马字 (Romaji)
使用拉丁字母表示日语发音的方式。赫本式和训令式是主要的两种系统。
零宽空格
显示宽度为零的不可见字符 (U+200B)。用作换行提示和文本处理控制。
变音符号
添加在字符上方或下方的辅助符号。表示发音差异,如重音符号和变音符号。
表意文字
文字本身承载含义的文字系统。汉字是典型代表,在 Unicode 中作为 CJK 统一表意文字收录。
文本处理
Token (令牌)
文本处理的最小单位。大语言模型使用独特的分词方案,与字符或单词不同。
文本截断
将文本按指定长度截断的处理。用于适应显示区域或数据库列的限制。
换行
将文本折行到下一行的处理。在 CSS 中通过 word-break 和 overflow-wrap 属性控制。
换行符
表示换行的控制字符。有 LF (Unix)、CR (旧 Mac) 和 CRLF (Windows) 三种类型。
Unicode 规范化
将同一字符的不同表示统一的处理。有 NFC、NFD、NFKC、NFKD 四种形式。
修剪 (Trim)
去除字符串前后空白的处理。大多数编程语言都提供标准方法。
转义序列
用于表示特殊字符的字符串。反斜杠后跟字符表示换行、制表符等控制字符。
字符串拼接
将多个字符串连接成一个字符串的操作,可通过 + 运算符、模板字面量等方式实现。
子字符串
从字符串中提取一部分的操作,可通过 slice、substring、substr 等方法实现。
字符串插值
通过模板字面量等语法将变量或表达式的值嵌入字符串中的处理方式。
填充 (Padding)
用特定字符填充字符串以达到指定长度的操作,通过 padStart 和 padEnd 方法实现。
Base64
一种将二进制数据转换为 ASCII 字符串的编码方式,使用 A-Z、a-z、0-9、+ 和 / 共 64 个字符。
百分号编码
一种在 URL 中使用 %XX 十六进制格式表示特殊字符的编码方式,也称为 URL 编码。
差异 (diff)
检测和显示两个文本之间差异的处理。是版本控制和代码审查的基础技术。
文本压缩
减小文本数据大小的技术。常用 gzip、Brotli 和 deflate 等算法。
编辑距离
两个字符串之间的编辑距离。将一个字符串转换为另一个所需的最少插入、删除和替换次数。
模糊匹配
搜索相似字符串而非精确匹配的技术。可处理拼写错误和拼写变体。
平台限制
字符数限制
平台或系统对文本输入设定的最大字符数。适用于社交媒体、广告和表单等场景。
元描述 (Meta Description)
HTML 的 meta description 标签,显示在搜索结果中的页面描述,通常建议 150-160 个字符。
标题标签 (Title Tag)
HTML 的 title 元素,显示在搜索结果和浏览器标签页中,建议 50-60 个字符。
替代文本 (alt 属性)
图片的替代文本,对无障碍访问和 SEO 至关重要,在图片无法显示时作为替代内容。
Slug (URL Slug)
URL 路径中使用的人类可读标识符,影响 SEO 和用户体验。
Open Graph
控制链接在社交媒体分享时显示信息的元标签协议,由 Facebook 制定。
X (Twitter) 字符限制
X (原 Twitter) 的帖子限制为 280 个字符,中日韩文字每个字符计为 2 个字符。
Instagram 标题限制
Instagram 标题最多允许 2,200 个字符,每个帖子最多可使用 30 个话题标签。
SMS 字符限制
SMS 短信限制为 160 个字符 (GSM 7-bit) 或 70 个字符 (Unicode/UCS-2),超长消息会被分割发送。
国际化
区域设置 (Locale)
语言、地区和格式设置的组合,用 ja-JP、en-US 等标识符表示。
ICU (Unicode 国际化组件)
Unicode 国际化库,提供字符串排序、转换、格式化等多语言处理基础功能。
双向文本 (BiDi)
处理从左到右 (LTR) 和从右到左 (RTL) 文本混合的技术,在包含阿拉伯语和希伯来语的多语言文本中必需。
CJK (中日韩统一表意文字)
在 Unicode 中统一处理中文、日文、韩文共用汉字的体系,即 CJK Unified Ideographs。
输入法 (IME)
用于输入键盘上无法直接对应的字符的软件,如中文、日文等语言的输入。
排序规则
字符串比较和排序的规则。定义因语言和文化而异的排序顺序。
转写
将一种文字系统的文本转换为另一种文字系统的过程,同时保留语音。
正则表达式
正则表达式模式
用于搜索和替换文本的模式描述语言,通过组合特殊字符和字面字符来定义字符串模式。
正则表达式量词
*、+、?、{n,m} 等指定重复次数的元字符,控制前一个元素的出现次数。
正则表达式字符类
[a-z]、d、w 等指定字符集合的语法,定义要匹配的字符范围。
正则表达式分组
使用 () 的捕获组和反向引用,将模式的一部分分组以捕获和重用匹配的子字符串。
正则表达式前瞻
使用 (?=...) 和 (?!...) 根据后续模式进行匹配的正则表达式语法,不消耗字符。
正则表达式反向引用
在同一模式中重用捕获组匹配文本的功能。使用 \1、\2 等引用。
自然语言处理
形态素分析
将文本分割为最小有意义单位 (形态素) 并赋予语法信息的处理过程。
分词 (Tokenization)
将文本分割为标记 (词、子词或其他处理单位) 的过程。
停用词 (Stopword)
在搜索和文本分析中被排除的高频词,如"的""是""a""the"等语义重要性较低的词。
N-gram
将文本分割为 N 个连续字符或单词子序列的方法,用于搜索和文本相似度计算。
情感分析
从文本中判定正面、负面、中性等情感极性的处理过程。
TF-IDF
Term Frequency-Inverse Document Frequency 的缩写。量化文档中词语重要性的方法。
命名实体识别 (NER)
从文本中自动识别和分类人名、地名、组织名等命名实体的自然语言处理技术。
排版
行高 (行距)
文本行与行之间的间距。通过 CSS 的 line-height 属性控制,对可读性有重大影响。
字体大小
文字的显示大小。在 CSS 中使用 px、em、rem、vw 等单位指定。
空白字符
空格、制表符、换行符等不可见字符。在文本处理和布局中发挥重要作用。
连字 (Ligature)
将两个或多个字符组合为一个字形显示的排版技法。常见例子包括 fi、fl 和 ff。
字距调整 (Kerning)
调整相邻字符间距的技法,根据字符组合实现视觉上均匀的间距。
数据格式
JSON
JavaScript Object Notation 的缩写,一种轻量级数据交换格式,人类和机器都易于读写。
CSV
Comma-Separated Values 的缩写,一种用逗号分隔数据的文本格式。广泛用于表格数据交换。
XML
Extensible Markup Language 的缩写,一种使用标签描述数据结构的标记语言。
YAML
YAML Ain't Markup Language 的缩写,一种基于缩进的人类可读数据序列化格式。
Markdown
一种轻量级标记语言,使用简单语法为纯文本添加格式,可转换为 HTML。
HTML 实体
用于在 HTML 中表示特殊字符的字符引用。以 & 开头,以 ; 结尾。
MIME 类型
用于识别文件和数据类型的标准分类系统。以 type/subtype 格式表示。
安全
哈希值
通过哈希函数将任意长度的数据转换为固定长度的值。用于数据完整性验证和篡改检测。
校验和
为检测数据错误而计算的值。用于数据传输和文件存储时的完整性验证。
加密
将数据转换为不可读格式的技术。只有持有解密密钥的人才能恢复原始数据。
明文
未加密的、人类可直接阅读的文本数据。
输入净化
从用户输入中移除或中和有害代码和无效字符的过程。是防御 XSS 和 SQL 注入的基本手段。
无障碍
屏幕阅读器
将屏幕上的文本和 UI 元素朗读出来的辅助技术。帮助视障用户访问 Web。
ARIA 标签
WAI-ARIA 规范中定义的属性,为 UI 元素提供无障碍名称。指定屏幕阅读器朗读的文本。
对比度
前景色与背景色亮度差的数值比率。WCAG 要求文本可读性达到 4.5:1 以上。
语义化 HTML
使用能清晰传达内容含义和结构的 HTML 元素。正确使用 header、nav、main、article、section 等元素。
焦点指示器
键盘操作时视觉显示当前获得焦点的元素。通常以轮廓或高亮形式呈现。
文本转语音 (TTS)
将文本数据转换为语音的技术。是屏幕阅读器和语音助手的基础技术。