テキスト圧縮

テキストデータのサイズを削減する技術。gzip、Brotli、deflate などのアルゴリズムが使われる。

テキスト圧縮とは、テキストデータの冗長性を利用してデータサイズを削減する技術です。Web では HTTP レスポンスの圧縮に gzip、Brotli、deflate などのアルゴリズムが広く使われています。

gzip は最も普及した圧縮形式で、ほぼすべてのブラウザがサポートしています。Brotli は Google が開発した新しい圧縮アルゴリズムで、gzip より 15〜25% 高い圧縮率を実現します。Web パフォーマンスの書籍で圧縮の効果を学べます。

テキスト圧縮の原理は、繰り返しパターンの検出と短い符号への置換です。HTML、CSS、JavaScript などのテキストファイルは圧縮率が高く、60〜80% のサイズ削減が期待できます。

文字数カウントの観点では、圧縮後のデータはバイナリ形式であり文字数の概念が適用されません。圧縮前の文字数と圧縮後のバイト数は異なる指標です。データ圧縮アルゴリズムの書籍も参考になります。