Entropy (Lượng thông tin)

Thước đo mức độ bất định trong lý thuyết thông tin. Văn bản có entropy cao thì khó dự đoán và khó nén, entropy thấp thì dư thừa và dễ nén.

Entropy là khái niệm cốt lõi trong lý thuyết thông tin do Claude Shannon đề xuất năm 1948. Trong ngữ cảnh văn bản, entropy đo lường "mức độ khó dự đoán ký tự tiếp theo", đơn vị là bit/ký tự. Văn bản có entropy cao đồng nghĩa với mật độ thông tin cao, còn entropy thấp cho thấy mức độ dư thừa cao.

Entropy của văn bản tiếng Anh được ước tính khoảng 1,0 - 1,5 bit/ký tự. Nếu 26 chữ cái xuất hiện với xác suất bằng nhau thì entropy sẽ là log₂(26) ≈ 4,7 bit/ký tự, nhưng thực tế chữ "e" xuất hiện nhiều nhất còn "z" gần như không xuất hiện, cộng thêm các mẫu phổ biến như "th", "ing", "tion" khiến entropy thực tế giảm đáng kể.

Tiếng Việt có đặc điểm entropy thú vị. Bảng chữ cái tiếng Việt gồm 29 chữ cái cơ bản, nhưng khi tính cả các dấu thanh (5 dấu) và dấu phụ, tổng số ký tự có thể lên đến hơn 130 ký tự riêng biệt. Điều này làm tăng entropy so với tiếng Anh. Tuy nhiên, cấu trúc âm tiết cố định của tiếng Việt (phụ âm đầu + nguyên âm + phụ âm cuối + thanh điệu) tạo ra tính dự đoán được, giúp giảm entropy thực tế. Mỗi âm tiết tiếng Việt mang nhiều thông tin hơn một âm tiết tiếng Anh nhờ hệ thống thanh điệu.

Entropy và nén văn bản có mối liên hệ trực tiếp. Theo định lý mã hóa nguồn của Shannon, giới hạn nén của văn bản được xác định bởi entropy. Văn bản có entropy 1,5 bit/ký tự về lý thuyết có thể nén xuống 1,5 bit cho mỗi ký tự. So với ASCII (1 ký tự = 8 bit), tỷ lệ nén lý thuyết tối đa là khoảng 81%. Các thuật toán như gzip và Brotli đạt được mức nén gần giới hạn lý thuyết này.

Entropy cũng được dùng để đánh giá độ mạnh mật khẩu. Mật khẩu 8 ký tự chữ thường có entropy là log₂(26⁸) ≈ 37,6 bit. Nếu dùng chữ hoa + chữ thường + số + ký hiệu (95 loại) thì entropy là log₂(95⁸) ≈ 52,6 bit. Hướng dẫn của NIST khuyến nghị mật khẩu dịch vụ trực tuyến cần tối thiểu 30 bit entropy. Tăng số ký tự hiệu quả hơn tăng số loại ký tự trong việc nâng cao entropy.

Trong đếm ký tự, entropy là chỉ số lý thuyết cho biết "cùng số ký tự có thể truyền tải bao nhiêu thông tin". Một bài đăng 280 ký tự trên Twitter chứa lời chào khuôn mẫu (entropy thấp) và một bài giải thích kỹ thuật chuyên sâu (entropy cao) truyền tải lượng thông tin rất khác nhau. Để tối đa hóa thông tin trong giới hạn ký tự, cần loại bỏ biểu đạt dư thừa và nâng cao entropy.

Chia sẻ bài viết này