分词 (Tokenization)

将文本分割为标记 (词、子词或其他处理单位) 的过程。

分词 (tokenization) 是将文本分割为标记 (token) 的过程,标记是文本处理的基本单位。根据应用场景,标记可以是词、子词或字符。

大语言模型 (LLM) 使用 BPE (字节对编码) 和 SentencePiece 等子词分词器来处理未知词。ChatGPT 的输入输出限制也是按标记数管理的。自然语言处理分词书籍介绍了各种分词方法。

日语分词与形态素分析密切相关,使用 MeCab 和 Sudachi 等工具。英语分词主要依靠空格和标点符号。

能够估算标记数的字符计数工具对管理提示词长度的 LLM 用户非常有用。LLM 分词器深度学习书籍教授最新技术。