平文 (プレーンテキスト)とは - 文字数カウントス

平文 (プレーンテキスト)

暗号化されていない、人間が直接読める形式のテキストデータ。

平文 (プレーンテキスト) とは、暗号化や特別なエンコーディングが施されていない、そのまま読める状態のテキストデータです。この用語は 2 つの文脈で使われます。暗号化の分野では暗号化前の原文データを指し、テキスト処理の分野では書式情報 (フォント、色、レイアウトなど) を含まない純粋な文字列データを意味します。

セキュリティの観点では、パスワードや個人情報を平文のまま保存・送信することは重大なリスクです。データベースにパスワードを平文で保存すると、データ漏洩時に全ユーザーのパスワードが即座に露出します。現代のベストプラクティスでは、パスワードは bcrypt や Argon2 などのハッシュ関数で不可逆に変換してから保存します。また、通信経路でも平文の HTTP ではなく HTTPS (TLS) を使用し、データを暗号化して送受信することが標準となっています。セキュリティ対策の書籍で安全なデータ管理を学べます。

テキスト処理の文脈では、プレーンテキストは書式情報を一切含まない純粋なテキストデータを意味します。拡張子 .txt のファイルが代表例で、HTML、Markdown、リッチテキスト (RTF)、Word 文書 (.docx) などの書式付きテキストと対比されます。プレーンテキストはどのテキストエディタでも開くことができ、プログラムによる処理も容易です。設定ファイル、ログファイル、CSV データなど、多くのシステムがプレーンテキスト形式を基盤としています。

よくある誤解として、「プレーンテキスト = ASCII のみ」と考えるケースがあります。実際にはプレーンテキストは文字エンコーディングに依存しており、UTF-8 でエンコードされたプレーンテキストは日本語や絵文字も含むことができます。重要なのは書式情報の有無であり、文字種の制限ではありません。

プレーンテキストと Markdown の関係も理解しておくと有用です。Markdown はプレーンテキストに軽量な書式記法を加えたもので、そのままでも人間が読める点が特徴です。一方、HTML はタグによる構造化が前提であり、ソースコードの可読性はプレーンテキストに劣ります。メールの世界では text/plain と text/html の 2 形式が併用されており、受信者の環境に応じて表示が切り替わります。データ保護実践の書籍も参考になります。

文字数カウントにおいて、プレーンテキストは最もシンプルな計測対象です。書式タグやメタデータが含まれないため、文字数がそのままデータの実質的な情報量と直結します。HTML 文書の文字数を数える場合はタグを除外する必要がありますが、プレーンテキストではそうした前処理が不要で、見た目の文字数と実際の文字数が一致します。

平文 (プレーンテキスト)

関連用語

関連記事