トークナイゼーション

テキストをトークン (単語やサブワードなどの処理単位) に分割する処理。

トークナイゼーション (tokenization) は、テキストを処理の基本単位であるトークンに分割する処理です。トークンは単語、サブワード、文字など、目的に応じた粒度で定義されます。

大規模言語モデル (LLM) では BPE (Byte Pair Encoding) や SentencePiece などのサブワードトークナイザが使われ、未知語にも対応できます。ChatGPT の入出力制限もトークン数で管理されています。自然言語処理とトークンの書籍でトークナイゼーションの手法を学べます。

日本語のトークナイゼーションは形態素解析と密接に関連しており、MeCab や Sudachi が単語分割に使われます。英語ではスペースと句読点による分割が基本です。

文字数カウントツールでは、テキストのトークン数を推定する機能が LLM ユーザーに重宝されています。LLM トークナイザの書籍で最新の手法を習得できます。