Token (令牌)

文本处理的最小单位。大语言模型使用独特的分词方案,与字符或单词不同。

Token (令牌) 是语言模型处理文本的最小单位。在自然语言处理 (NLP) 和大语言模型 (LLM) 中,文本在处理前会被分割成 Token。

在 ChatGPT 等 LLM 中,一个英文 Token 大约等于 4 个字符或 0.75 个单词。中文每个 Token 约对应 1-2 个字符。GPT-4o 的上下文窗口为 128K Token,约等于 96,000 个英文单词。NLP 入门书籍详细解释了分词机制。

API 定价基于 Token 数量,因此提示词优化直接关系到成本管理。

中文文本的 Token 效率低于英文,相同内容会消耗更多 Token。ChatGPT 提示词工程书籍介绍了 Token 感知的提示词设计策略。