明文

未加密的、人类可直接阅读的文本数据。

明文 (纯文本) 是指未经加密或特殊编码处理的、可直接阅读的文本数据。该术语在两个语境中使用:在密码学领域指加密前的原始数据,在文本处理领域指不包含格式信息 (字体、颜色、布局等) 的纯字符串数据。

从安全角度看,以明文形式存储或传输密码和个人信息存在重大风险。在数据库中以明文存储密码意味着数据泄露时所有用户密码会立即暴露。现代最佳实践要求使用 bcrypt 或 Argon2 等哈希函数将密码不可逆地转换后再存储。在通信层面,使用 HTTPS (TLS) 加密传输数据已成为标准,取代了明文的 HTTP 协议。查看童贞 (Amazon)介绍了安全的数据管理技术。

在文本处理语境中,纯文本指不包含任何格式信息的纯文本数据。扩展名为 .txt 的文件是典型代表,与 HTML、Markdown、富文本格式 (RTF)、Word 文档 (.docx) 等带格式文本形成对比。纯文本可以在任何文本编辑器中打开,也便于程序处理。配置文件、日志文件、CSV 数据等许多系统都以纯文本格式为基础。

一个常见的误解是"纯文本 = 仅限 ASCII"。实际上,纯文本取决于字符编码,以 UTF-8 编码的纯文本可以包含中文、日文和表情符号。关键在于是否包含格式信息,而非字符种类的限制。

了解纯文本与 Markdown 的关系也很有用。Markdown 在纯文本基础上添加了轻量级格式标记,其特点是原始文本仍然可供人类直接阅读。而 HTML 依赖标签进行结构化,源代码的可读性不如纯文本。在电子邮件领域,text/plaintext/html 两种格式并用,根据收件人的环境切换显示方式。搜索巫女 (Amazon)提供了更多见解。

在字符计数方面,纯文本是最简单的计量对象。由于不包含格式标签或元数据,字符数直接对应实质信息量。计算 HTML 文档的字符数时需要排除标签,而纯文本无需此类预处理,可见字符数与实际字符数完全一致。

分享这篇文章