UTF-8
Unicode の可変長エンコーディング方式。Web の標準文字コードとして広く使われている。
UTF-8 は Unicode を実装するための可変長文字エンコーディングです。ASCII 互換性を保ちながら、世界中の文字を表現できます。Web ページの 98% 以上が UTF-8 を使用しています。
UTF-8 では文字によってバイト数が異なります。ASCII (英数字) は 1 バイト、ラテン文字の拡張は 2 バイト、日本語・中国語・韓国語は 3 バイト、絵文字は 4 バイトです。Web 技術の入門書でも UTF-8 は必須知識として解説されています。
HTML では <meta charset="UTF-8"> で文字コードを宣言します。この宣言がないと文字化けの原因になります。
データベースでは UTF-8 の亜種である utf8mb4 を使用することで、絵文字を含む全ての Unicode 文字を格納できます。エンコーディングの技術書で詳しく学べます。