Dị thể chữ (Variant Glyph)

Các biến thể của chữ Hán có cùng nghĩa và cách đọc nhưng hình dạng khác nhau. Bao gồm mối quan hệ giữa chính tự, tục tự, tự thể cũ và tự thể mới, ví dụ "高" và "髙", "辺" và "邊" và "邉".

Dị thể chữ (variant glyph / variant character) là các biến thể của cùng một ký tự nhưng có hình dạng khác nhau. Trong chữ Hán tiếng Nhật, hiện tượng này đặc biệt phổ biến; chỉ riêng chữ "辺" trong họ "渡辺" đã có hơn 20 dị thể như "邊", "邉", "辺". Do dị thể chữ được sử dụng nhiều trong tên người và địa danh, đây là vấn đề không thể tránh trong xử lý văn bản tiếng Nhật. Trong tiếng Việt, hiện tượng tương tự ít gặp hơn do sử dụng chữ Latinh, nhưng vẫn xuất hiện khi xử lý tên riêng gốc Hán.

Có nhiều nguyên nhân dẫn đến sự hình thành dị thể chữ. Thứ nhất, trong lịch sử dài của chữ Hán, thư thể biến đổi và nhiều hình dạng khác nhau của cùng một chữ đã được định hình. Thứ hai, bảng Đương dụng Hán tự năm 1946 và bảng Thường dụng Hán tự năm 1981 đã đơn giản hóa tự thể, tạo ra các cặp tự thể cũ - tự thể mới (ví dụ: "國" thành "国", "學" thành "学"). Thứ ba, Trung Quốc, Đài Loan, Nhật Bản và Hàn Quốc đã đơn giản hóa cùng một chữ Hán theo cách riêng, dẫn đến hình dạng tiêu chuẩn khác nhau theo từng khu vực.

Unicode có hai cách tiếp cận để xử lý dị thể chữ. Cách thứ nhất là gán code point riêng biệt cho mỗi dị thể. "高" (U+9AD8) và "髙" (U+9AD9) có code point khác nhau. Cách thứ hai là sử dụng Variation Selector (bộ chọn biến thể). Thêm VS1-VS256 (U+FE00-U+FE0F) hoặc IVS (Ideographic Variation Sequence, U+E0100-U+E01EF) sau ký tự cơ sở để chỉ định hình dạng. Bộ sưu tập Adobe-Japan1 sử dụng IVS để phân biệt hơn 23.000 biến thể hình dạng.

Trong đếm ký tự, Variation Selector là một cạm bẫy quan trọng. "葛" + IVS (U+E0100) trông như 1 ký tự nhưng trong Unicode gồm 2 code point. Đếm bằng String.length sẽ cho kết quả 2 (hoặc nhiều hơn nếu có surrogate pair), không khớp với số ký tự nhìn thấy. Đếm theo đơn vị grapheme cluster mới cho kết quả chính xác là 1 ký tự.

Trong thực tế, tình huống điển hình gây vấn đề với dị thể chữ là đối chiếu tên người. "渡邊" và "渡辺" rất có thể chỉ cùng một người, nhưng dưới dạng chuỗi ký tự thì hoàn toàn khác nhau. Trong hệ thống ngân hàng và hành chính, cần xử lý chuẩn hóa (thống nhất) dị thể chữ trước khi đối chiếu. Các dạng chuẩn hóa Unicode (NFC/NFKC) hợp nhất một số Hán tự tương thích, nhưng các dị thể như "辺" và "邊" không được hợp nhất, nên cần chuẩn bị bảng dị thể chữ riêng.

Từ góc độ phông chữ, để hiển thị dị thể chữ, phông chữ phải chứa hình dạng tương ứng. Nếu hình dạng được chỉ định bằng IVS không có trong phông chữ, hình dạng mặc định của ký tự cơ sở sẽ được hiển thị. "Nền tảng thông tin ký tự" (MJ Character Information List) của cơ quan hành chính Nhật Bản thu thập khoảng 60.000 hình dạng chữ Hán, bao phủ các dị thể chữ dùng trong hộ tịch và sổ cư trú.

Dị thể chữ (Variant Glyph)

Chia sẻ bài viết này

Thuật ngữ liên quan

Bài viết liên quan