文字集合 (キャラクタセット)
特定の文字の集まりとその番号付けの体系。ASCII、ISO 8859、Unicode などが代表的。
文字集合 (キャラクタセット) とは、特定の文字の集まりとそれぞれの文字に割り当てられた番号 (コードポイント) の体系です。ASCII は 128 文字、ISO 8859-1 は 256 文字、Unicode は 14 万文字以上を定義しています。
文字集合と文字エンコーディングは異なる概念です。文字集合は「どの文字に何番を割り当てるか」を定義し、エンコーディングは「その番号をどのようなバイト列で表現するか」を定義します。文字コード解説の書籍で体系的に学べます。
HTML の <meta charset="UTF-8"> は厳密には文字エンコーディングの指定ですが、歴史的経緯から charset (文字集合) という名前が使われています。
文字数カウントの観点では、使用する文字集合によって表現可能な文字の範囲が決まります。ASCII では日本語を表現できず、Unicode であれば世界中の文字を扱えます。国際化と文字コードの書籍も参考になります。