术语表
文本测量
字符数
文本中包含的字符总数,是否包含空格取决于具体场景。
字节数
文本数据编码后的字节大小。相同字符在不同编码下字节数可能不同。
单词数
文本中包含的单词数量。英文按空格分隔计数,中文需要分词处理。
阅读时间
阅读完一段文本所需的预估时间,根据字数或单词数计算得出。
段落数
文本中段落的数量,用作文本结构和可读性的衡量指标。
句数
文本中句子的数量。以句号、问号和感叹号等句末标点分隔计数。
可读性评分
量化文本可读性的数值指标。Flesch Reading Ease 和 Flesch-Kincaid Grade Level 是代表性示例。
WPM (每分钟单词数)
衡量打字速度的单位,表示每分钟输入的单词数。在英语国家广泛使用,一个单词平均按 5 次击键计算。
原稿用纸
日本写作用的方格纸,标准格式为 400 格 (20 字 × 20 行),是字数管理的基本单位。
行数
文本中行的数量。分为逻辑行和显示行两种,用于字符数和页数的计算以及代码规模的度量。
字符编码
Unicode
一种通用字符编码标准,涵盖全球所有书写系统的 14 万多个字符。
UTF-8
一种可变长度的 Unicode 编码方式,是 Web 的标准字符编码,被超过 98% 的网站使用。
Shift_JIS
一种日语字符编码,在旧系统中广泛使用,正逐步被 UTF-8 取代。
ASCII
一种 7 位字符编码标准,可表示 128 个字符,包括英文字母、数字和基本符号。
UTF-16
一种使用 16 位编码单元的 Unicode 编码方式,被 JavaScript、Java 和 Windows 内部使用。
EUC-JP
一种在 UNIX 系统上广泛使用的日语字符编码,属于扩展 Unix 编码家族。
ISO-2022-JP
一种为电子邮件设计的日语编码,使用转义序列在字符集之间切换。
BOM (字节顺序标记)
文件开头的字节序列,用于标识编码类型。UTF-8 为 EF BB BF,UTF-16 为 FF FE 或 FE FF。
码位 (Code Point)
Unicode 中为每个字符分配的唯一编号,以 U+ 加十六进制数字表示,如 U+0041 (A)。
代理对 (Surrogate Pair)
UTF-16 中使用两个 16 位编码单元表示 BMP 之外字符的机制。
组合字符
与前面的基础字符组合显示的 Unicode 字符。包括变音符号和浊音符号等。
字节序
多字节数据的字节顺序。分为大端序和小端序两种。
字符集
特定字符的集合及其编号体系。ASCII、ISO 8859 和 Unicode 是代表性示例。
GSM-7 编码
SMS 中使用的 7 位字符编码,每条消息可容纳 160 个字符,支持英文字母、数字和基本符号。
乱码 (Mojibake)
由于文本数据的编码与解码方式不一致,导致原本的字符显示为无意义的符号或其他字符的现象。
字符编码
定义字符与比特序列对应关系的规则体系。由字符集 (定义包含哪些字符) 和编码方案 (定义如何转换为字节序列) 两个层次构成。
JIS (日本产业规格)
日本的工业产品国家标准。在字符编码领域,JIS X 0208 (基本日文字符集) 和 JIS X 0213 (扩展字符集) 构成了日文文本处理的基础。
可变长编码
不同字符使用不同字节数的编码方式。UTF-8 (1-4 字节) 和 Shift_JIS (1-2 字节) 是典型代表,通过用较短的字节序列表示高频字符来提高效率。
BMP (基本多文种平面)
Unicode 中最初的 65,536 个码位所在的区域。日常使用的绝大多数字符都收录于此。
字符类型
全角字符
在等宽字体中占据半角字符两倍宽度的字符。中日韩文字通常为全角。
半角字符
在等宽字体中占据全角字符一半宽度的字符。ASCII 字符属于半角。
平假名
日语表音文字之一,用于书写助词、动词词尾和日语固有词汇。
片假名
日语表音文字之一,主要用于书写外来词、拟声词和学术术语。
汉字
起源于中国的表意文字,在中文、日文和韩文中广泛使用。
书写素簇 (Grapheme Cluster)
人类视觉上认为是一个字符的最小显示单位,可能由多个码位组成。
表情符号 (Emoji)
Unicode 中收录的图形符号,用于在文本通信中直观地表达情感和概念。
罗马字 (Romaji)
使用拉丁字母表示日语发音的方式。赫本式和训令式是主要的两种系统。
零宽空格
显示宽度为零的不可见字符 (U+200B)。用作换行提示和文本处理控制。
变音符号
添加在字符上方或下方的辅助符号。表示发音差异,如重音符号和变音符号。
表意文字
文字本身承载含义的文字系统。汉字是典型代表,在 Unicode 中作为 CJK 统一表意文字收录。
ZWJ (零宽连接符)
Unicode 中的零宽控制字符 (U+200D),用于将多个字符或表情符号组合为一个显示单元。
异体字
含义和读音相同但字形不同的汉字变体。如「国」与「國」、「学」与「學」,涵盖正体字、俗体字、繁体字、简体字等关系。
控制字符
不在屏幕上显示,但用于指示文本处理方式的特殊字符。包括换行、制表符、空字符等。
不可见字符
存在于文本数据中但不在屏幕上显示的字符的统称。包括零宽空格、双向控制字符等,会影响字符计数结果。
常用汉字
日本文化审议会制定的日常生活中使用汉字的参考标准,共收录 2,136 个汉字。
字符类型
构成文本的字符分类。汉字、拉丁字母、数字、标点符号等不同类别,是输入验证和文本分析的基本单位。
文本处理
Token (令牌)
文本处理的最小单位。大语言模型使用独特的分词方案,与字符或单词不同。
文本截断
将文本按指定长度截断的处理。用于适应显示区域或数据库列的限制。
换行
将文本折行到下一行的处理。在 CSS 中通过 word-break 和 overflow-wrap 属性控制。
换行符
表示换行的控制字符。有 LF (Unix)、CR (旧 Mac) 和 CRLF (Windows) 三种类型。
Unicode 规范化
将同一字符的不同表示统一的处理。有 NFC、NFD、NFKC、NFKD 四种形式。
修剪 (Trim)
去除字符串前后空白的处理。大多数编程语言都提供标准方法。
转义序列
用于表示特殊字符的字符串。反斜杠后跟字符表示换行、制表符等控制字符。
字符串拼接
将多个字符串连接成一个字符串的操作,可通过 + 运算符、模板字面量等方式实现。
子字符串
从字符串中提取一部分的操作,可通过 slice、substring、substr 等方法实现。
字符串插值
通过模板字面量等语法将变量或表达式的值嵌入字符串中的处理方式。
填充 (Padding)
用特定字符填充字符串以达到指定长度的操作,通过 padStart 和 padEnd 方法实现。
Base64
一种将二进制数据转换为 ASCII 字符串的编码方式,使用 A-Z、a-z、0-9、+ 和 / 共 64 个字符。
百分号编码
一种在 URL 中使用 %XX 十六进制格式表示特殊字符的编码方式,也称为 URL 编码。
差异 (diff)
检测和显示两个文本之间差异的处理。是版本控制和代码审查的基础技术。
文本压缩
减小文本数据大小的技术。常用 gzip、Brotli 和 deflate 等算法。
编辑距离
两个字符串之间的编辑距离。将一个字符串转换为另一个所需的最少插入、删除和替换次数。
模糊匹配
搜索相似字符串而非精确匹配的技术。可处理拼写错误和拼写变体。
轻拂输入
一种日语智能手机输入法,通过在触摸屏上向四个方向轻拂按键来选择字符,比切换输入法更快。
验证 (Validation)
检验输入数据是否符合规定的格式、范围和约束条件的处理过程。包括字符数限制、字符类型检查、格式验证等。
占位符 (Placeholder)
显示在输入框中的临时提示文本,用于向用户展示输入内容的格式或示例。用户开始输入后自动消失。
大小写转换
将字母的大写和小写相互转换的处理。不同语言的转换规则各异,某些情况下转换还会导致字符数变化。
解析 (Parsing)
按照语法规则对文本数据进行分析,将其转换为结构化数据的处理过程。
分块 (Chunk)
将大型数据或文本分割成便于处理的小单元。广泛应用于 AI 的 token 限制应对、流式传输和文件传输等场景。
推敲与校对
为提升文章质量而进行的审阅工作。推敲侧重于表达的改进,校对侧重于错别字的修正。
OCR (光学字符识别)
从图像或扫描文档中自动识别文字,并将其转换为可编辑文本数据的技术。
预测输入
根据用户已输入的字符预测接下来要输入的词语或句子,并以候选列表形式呈现的功能。
文本编辑器
专门用于创建和编辑文本文件的软件。具备字符计数、查找替换、语法高亮等功能。
稿件
为印刷、出版、广播等目的而创作的文本原始数据。字数是衡量稿件篇幅的核心指标。
排序
将字符串按特定顺序重新排列的处理。由于不同语言和文化对正确顺序的定义各异,国际化场景中排序规则的配置至关重要。
平台限制
字符数限制
平台或系统对文本输入设定的最大字符数。适用于社交媒体、广告和表单等场景。
元描述 (Meta Description)
HTML 的 meta description 标签,显示在搜索结果中的页面描述,通常建议 150-160 个字符。
标题标签 (Title Tag)
HTML 的 title 元素,显示在搜索结果和浏览器标签页中,建议 50-60 个字符。
替代文本 (alt 属性)
图片的替代文本,对无障碍访问和 SEO 至关重要,在图片无法显示时作为替代内容。
Slug (URL Slug)
URL 路径中使用的人类可读标识符,影响 SEO 和用户体验。
Open Graph
控制链接在社交媒体分享时显示信息的元标签协议,由 Facebook 制定。
X (Twitter) 字符限制
X (原 Twitter) 的帖子限制为 280 个字符,中日韩文字每个字符计为 2 个字符。
Instagram 标题限制
Instagram 标题最多允许 2,200 个字符,每个帖子最多可使用 30 个话题标签。
SMS 字符限制
SMS 短信限制为 160 个字符 (GSM 7-bit) 或 70 个字符 (Unicode/UCS-2),超长消息会被分割发送。
标签 (主题标签)
以 # 符号为前缀的关键词,作为社交媒体帖子的元数据,用于分类和提高可发现性。
字幕/配文
附在图片或视频上的描述性文字。在社交媒体中指帖子正文,各平台的字符限制不同。
国际化
区域设置 (Locale)
语言、地区和格式设置的组合,用 ja-JP、en-US 等标识符表示。
ICU (Unicode 国际化组件)
Unicode 国际化库,提供字符串排序、转换、格式化等多语言处理基础功能。
双向文本 (BiDi)
处理从左到右 (LTR) 和从右到左 (RTL) 文本混合的技术,在包含阿拉伯语和希伯来语的多语言文本中必需。
CJK (中日韩统一表意文字)
在 Unicode 中统一处理中文、日文、韩文共用汉字的体系,即 CJK Unified Ideographs。
输入法 (IME)
用于输入键盘上无法直接对应的字符的软件,如中文、日文等语言的输入。
排序规则
字符串比较和排序的规则。定义因语言和文化而异的排序顺序。
转写
将一种文字系统的文本转换为另一种文字系统的过程,同时保留语音。
正则表达式
正则表达式模式
用于搜索和替换文本的模式描述语言,通过组合特殊字符和字面字符来定义字符串模式。
正则表达式量词
*、+、?、{n,m} 等指定重复次数的元字符,控制前一个元素的出现次数。
正则表达式字符类
[a-z]、d、w 等指定字符集合的语法,定义要匹配的字符范围。
正则表达式分组
使用 () 的捕获组和反向引用,将模式的一部分分组以捕获和重用匹配的子字符串。
正则表达式前瞻
使用 (?=...) 和 (?!...) 根据后续模式进行匹配的正则表达式语法,不消耗字符。
正则表达式反向引用
在同一模式中重用捕获组匹配文本的功能。使用 \1、\2 等引用。
自然语言处理
形态素分析
将文本分割为最小有意义单位 (形态素) 并赋予语法信息的处理过程。
分词 (Tokenization)
将文本分割为标记 (词、子词或其他处理单位) 的过程。
停用词 (Stopword)
在搜索和文本分析中被排除的高频词,如"的""是""a""the"等语义重要性较低的词。
N-gram
将文本分割为 N 个连续字符或单词子序列的方法,用于搜索和文本相似度计算。
情感分析
从文本中判定正面、负面、中性等情感极性的处理过程。
TF-IDF
Term Frequency-Inverse Document Frequency 的缩写。量化文档中词语重要性的方法。
命名实体识别 (NER)
从文本中自动识别和分类人名、地名、组织名等命名实体的自然语言处理技术。
文本挖掘
运用统计学和语言学方法从大量文本数据中提取有价值的模式和知识的技术。综合运用分词、频率分析、共现分析、情感分析等方法。
摘要
将长篇文章的要点浓缩为短文本的处理。分为抽取式和生成式两种方法,是在字数限制下传递信息的关键技术。
BPE (字节对编码)
一种基于高频字节组合将文本拆分为子词单元的算法。被 GPT 等大语言模型的分词器广泛采用。
自然语言处理 (NLP)
利用计算机对人类日常使用的语言进行处理、理解和生成的技术总称。
机器翻译
计算机将一种语言的文本自动翻译为另一种语言的技术。
排版
行高 (行距)
文本行与行之间的间距。通过 CSS 的 line-height 属性控制,对可读性有重大影响。
字体大小
文字的显示大小。在 CSS 中使用 px、em、rem、vw 等单位指定。
空白字符
空格、制表符、换行符等不可见字符。在文本处理和布局中发挥重要作用。
连字 (Ligature)
将两个或多个字符组合为一个字形显示的排版技法。常见例子包括 fi、fl 和 ff。
字距调整 (Kerning)
调整相邻字符间距的技法,根据字符组合实现视觉上均匀的间距。
对话框 (漫画气泡)
漫画和聊天界面中包围角色对话的图形元素。有限空间内的字数限制与设计密切相关。
注音标注 (Ruby Annotation)
为汉字或外来词标注读音而在目标文字上方 (横排) 或右侧 (竖排) 附加的小号文字。在 HTML 中通过 元素实现。
字符宽度
文本显示中每个字符在水平方向上占据的空间大小。包括全角 (2 列宽) 与半角 (1 列宽) 的区分,以及比例字体中的可变宽度。
标点符号
文章中使用的句号、逗号、括号、引号、感叹号等符号的统称。不同语言和地区的标点种类、用法和字符宽度各不相同。
竖排
文本从上到下书写、行从右到左排列的书写方向。中文、日文等语言传统上使用竖排,可通过 CSS 的 writing-mode 实现。
自动换行
当文本超出显示区域宽度时,自动折到下一行的处理。按单词边界还是字符边界换行,取决于语言和设置。
引号
文本中用于标示引用、对话、强调等的符号。不同语言和地区使用不同形式的引号。
连字符与破折号
文本中用于连接单词、表示范围、分隔插入语等的横线符号。连字符、半角破折号、全角破折号虽然外观相似,但在 Unicode 中是不同的字符。
字体
定义文字视觉设计的数据集。字体的选择直接影响文字的显示宽度和可读性。
缩进
在文本行首插入空白,以视觉方式标示段落起始或层级结构的排版格式。中文写作中段首缩进两个全角字符是标准格式。
字间距
文本中字符与字符之间的间隔。通过 CSS 的 letter-spacing 属性控制,影响可读性和设计风格。
数据格式
JSON
JavaScript Object Notation 的缩写,一种轻量级数据交换格式,人类和机器都易于读写。
CSV
Comma-Separated Values 的缩写,一种用逗号分隔数据的文本格式。广泛用于表格数据交换。
XML
Extensible Markup Language 的缩写,一种使用标签描述数据结构的标记语言。
YAML
YAML Ain't Markup Language 的缩写,一种基于缩进的人类可读数据序列化格式。
Markdown
一种轻量级标记语言,使用简单语法为纯文本添加格式,可转换为 HTML。
HTML 实体
用于在 HTML 中表示特殊字符的字符引用。以 & 开头,以 ; 结尾。
MIME 类型
用于识别文件和数据类型的标准分类系统。以 type/subtype 格式表示。
QR 码
一种二维条码,最多可存储 7,089 位数字或约 1,800 个汉字,具有纠错功能。
SSID
Wi-Fi 网络的标识名称,最大 32 字节,在路由器上设置以区分不同的接入点。
压缩率
数据压缩中,压缩后数据大小与原始数据大小的比率。文本数据通常可以达到 60% 至 80% 的压缩率。
熵 (信息量)
信息论中衡量不确定性的指标。文本的熵越高,越难预测、越难压缩。
安全
哈希值
通过哈希函数将任意长度的数据转换为固定长度的值。用于数据完整性验证和篡改检测。
校验和
为检测数据错误而计算的值。用于数据传输和文件存储时的完整性验证。
加密
将数据转换为不可读格式的技术。只有持有解密密钥的人才能恢复原始数据。
明文
未加密的、人类可直接阅读的文本数据。
输入净化
从用户输入中移除或中和有害代码和无效字符的过程。是防御 XSS 和 SQL 注入的基本手段。
数字签名
通过加密技术证明数字数据创建者的身份真实性以及数据未被篡改的机制。
无障碍
屏幕阅读器
将屏幕上的文本和 UI 元素朗读出来的辅助技术。帮助视障用户访问 Web。
ARIA 标签
WAI-ARIA 规范中定义的属性,为 UI 元素提供无障碍名称。指定屏幕阅读器朗读的文本。
对比度
前景色与背景色亮度差的数值比率。WCAG 要求文本可读性达到 4.5:1 以上。
语义化 HTML
使用能清晰传达内容含义和结构的 HTML 元素。正确使用 header、nav、main、article、section 等元素。
焦点指示器
键盘操作时视觉显示当前获得焦点的元素。通常以轮廓或高亮形式呈现。
文本转语音 (TTS)
将文本数据转换为语音的技术。是屏幕阅读器和语音助手的基础技术。