Mối quan hệ kỳ lạ giữa số nét Kanji và số ký tự - Một chữ có tới 84 nét

Khoảng 8 phút đọc

Chữ Kanji "靐" được tạo bằng cách xếp chồng ba chữ "雲" (mây) có 39 nét. "𪚥" gồm bốn chữ "龍" (rồng) có 64 nét. Và "taito," được coi là chữ Kanji có nhiều nét nhất ở Nhật Bản, đạt tới 84 nét. Tuy nhiên, tất cả những chữ Kanji này đều chỉ được tính là "1 ký tự" trong bộ đếm ký tự. Chữ "一" chỉ có 1 nét và chữ "taito" có 84 nét đều là 1 ký tự như nhau. Bài viết này khám phá mối quan hệ giữa số nét Kanji và việc đếm ký tự, bao gồm số lượng Kanji được mã hóa trong Unicode và cách hoạt động của hệ thống ký tự dị thể.

Bảng xếp hạng Kanji có nhiều nét nhất

Về lý thuyết, không có giới hạn trên cho số nét Kanji. Vì có thể kết hợp các Kanji hiện có để tạo chữ mới, số nét có thể tăng không giới hạn. Tuy nhiên, nếu chỉ tính những Kanji có ghi nhận sử dụng thực tế, bảng xếp hạng như sau.

Nhiều Kanji có số nét cao mang cấu trúc gọi là "rigiji" - chữ được tạo bằng cách xếp chồng các thành phần giống nhau. "森" (mộc × 3 = 12 nét), "轟" (xa × 3 = 21 nét), "靐" (lôi × 3 = 39 nét) - nhân đôi hoặc nhân ba cùng một bộ thủ sẽ nhân số nét lên gấp bội. Những chữ ghép này thường mang nghĩa nhấn mạnh như "nhiều" hoặc "mãnh liệt," và phương pháp tạo chữ này đã tồn tại từ thời cổ đại.

KanjiSố nétCách đọcCấu tạoTrạng thái Unicode
Taito (雲×3 + 龍×3)84 néttaito, daito, otodo3 × mây + 3 × rồngChưa thu nạp
𪚥64 néttetsu, techi龍 × 4Đã thu nạp (U+2A6A5)
𱁬57 nétbyanTên món mì tỉnh Thiểm TâyThêm vào Unicode 13.0
39 néthyō雷 × 3Đã thu nạp (U+9750)
31 nétsan, zan金 + 毚Đã thu nạp (U+9471)
29 nétutsuNhiều nét nhất trong Kanji thường dùngĐã thu nạp (U+9B31)

Chữ "taito" 84 nét được cho là đã từng được sử dụng làm họ, nhưng không được thu nạp vào Unicode - nghĩa là không thể hiển thị như một ký tự đơn trên máy tính. Ngược lại, chữ "𪚥" 64 nét đã có trong Unicode và có thể hiển thị trên màn hình với phông chữ tương thích.

Trong 2.136 Kanji thường dùng (jōyō kanji), "鬱" giữ kỷ lục với 29 nét. Nó được thêm vào danh sách jōyō trong lần sửa đổi năm 2010, gây ra tranh luận về việc liệu một chữ phức tạp đến vậy có thực sự "thường dùng" hay không.

Phân bố số nét của Kanji thường dùng

Xem xét phân bố số nét của toàn bộ 2.136 Kanji thường dùng cho thấy "độ phức tạp tiêu chuẩn" của các ký tự được sử dụng hàng ngày trong tiếng Nhật.

Khoảng nétSố chữTỷ lệKanji đại diện
1-4 nét~1607,5%一, 二, 人, 大, 中, 日
5-8 nét~62029%生, 出, 本, 学, 国, 物
9-12 nét~73034%食, 海, 読, 意, 新, 電
13-16 nét~44021%話, 歴, 機, 環, 職, 臨
17-20 nét~1507%題, 類, 議, 識, 覧, 競
21+ nét~361,7%鑑, 驚, 鬱, 露, 魔, 籠

Khoảng 9-12 nét chiếm nhiều nhất, khoảng 34% tổng số Kanji thường dùng. Số nét trung bình khoảng 10,3. Nói cách khác, Kanji được sử dụng trong văn bản tiếng Nhật hàng ngày có độ phức tạp trung bình khoảng 10 nét.

Phân bố này phản ánh sự cân bằng giữa khả năng nhận thức và khả năng viết của con người. Quá ít nét thì khó phân biệt ("一," "二," và "三" dễ nhầm lẫn), quá nhiều nét thì khó viết. Khoảng 9-12 nét là "điểm ngọt" nơi số lượng khái niệm lớn nhất có thể được biểu đạt hiệu quả nhất.

Nhiều nét nhưng cùng số byte - Sự bình đẳng của Unicode

Đây là điểm quan trọng nhất từ góc độ đếm ký tự. Dù Kanji có bao nhiêu nét, mối quan hệ giữa số ký tự và số byte vẫn không thay đổi.

KanjiSố nétMã UnicodeByte UTF-8Byte UTF-16
1 nétU+4E003 byte2 byte
29 nétU+9B313 byte2 byte
39 nétU+97503 byte2 byte
𪚥64 nétU+2A6A54 byte4 byte (cặp thay thế)

Tất cả Kanji trong khối CJK Unified Ideographs cơ bản (U+4E00-U+9FFF) đều chiếm 3 byte trong UTF-8 và 2 byte trong UTF-16, bất kể số nét. Chữ "𪚥" 64 nét nằm trong Extension B (U+20000-U+2A6DF), nên cần 4 byte trong UTF-8 và cặp thay thế (4 byte) trong UTF-16.

Tóm lại, số nét không ảnh hưởng đến số byte. Điều quyết định là ký tự được thu nạp vào khối Unicode nào. Kanji khối cơ bản chiếm 3 byte; Kanji khối mở rộng chiếm 4 byte. Sự khác biệt này được xác định bởi thời điểm ký tự được thêm vào Unicode, không phải số nét.

Sự tăng trưởng của CJK Unified Ideographs trong Unicode

Số lượng Kanji được mã hóa trong Unicode đã tăng đều đặn qua mỗi phiên bản. Như đã giải thích trong kiến thức cơ bản về Unicode, Unicode là tiêu chuẩn xử lý thống nhất tất cả hệ thống chữ viết trên thế giới, và việc mã hóa Kanji là một dự án đặc biệt quy mô lớn.

Phiên bản UnicodeNăm phát hànhCJK Unified Ideographs (tích lũy)Số lượng thêm
1.0199120.90220.902 (bộ ban đầu)
3.1200147.035Thêm lớn qua Extension A + B
5.2200951.110Thêm Extension C
8.0201580.388Thêm Extension E
13.0202092.856Thêm Extension G
15.1202397.680Thêm Extension H + I
16.02024Hơn 99.000Thêm Extension J

Từ khoảng 20.000 ký tự trong Unicode 1.0 (1991), CJK Unified Ideographs đã đạt khoảng 99.000 trong Unicode 16.0 (2024) - tăng gấp 5 lần trong hơn 30 năm. Tuy nhiên, Kanji sử dụng hàng ngày chỉ khoảng 3.000 trong tiếng Nhật và khoảng 3.500 trong tiếng Trung giản thể. Hơn 90.000 ký tự còn lại là Kanji hiếm dùng trong văn bản cổ điển, phương ngữ và các dạng dị thể lịch sử.

Bộ chọn dị thể (IVS) - Một ký tự, nhiều hình dạng

Điều làm cho việc đếm ký tự Kanji phức tạp hơn nữa là hệ thống Ideographic Variation Sequence (IVS). IVS phân biệt các hình dạng khác nhau (dị thể) của cùng một Kanji bằng cách thêm bộ chọn biến thể (U+E0100-U+E01EF) sau ký tự cơ sở.

Ví dụ, Kanji "辺" có nhiều dạng biến thể bao gồm "邊" và "邉." IVS được sử dụng để hiển thị chính xác hình dạng chữ đã đăng ký trong hộ tịch. Hệ thống hộ tịch Nhật Bản được cho là chứa khoảng 60.000 dạng chữ Kanji khác nhau, nhiều trong số đó không thể biểu diễn bằng Kanji Unicode tiêu chuẩn.

Khi sử dụng IVS, những gì trông như 1 ký tự trên màn hình thực tế tiêu thụ 2 mã điểm - ký tự cơ sở cộng bộ chọn biến thể. Đây là cùng cấu trúc được thấy trong đếm ký tự emoji, nơi một emoji đơn có thể gồm nhiều mã điểm.

Ký tự cơ sởBộ chọn biến thểHình dạng hiển thịSố mã điểmMục đích
辺 (U+8FBA)VS17 (U+E0100)Dị thể 1 của 辺2Tên trong hộ tịch
辺 (U+8FBA)VS18 (U+E0101)Dị thể 2 của 辺2Tên trong hộ tịch
葛 (U+845B)VS17 (U+E0100)Dị thể của 葛2Địa danh (Katsushika vs. Katsuragi)
祇 (U+7947)VS17 (U+E0100)Dị thể của 祇2Hình dạng chính xác của "Gion"

Một số công cụ đếm ký tự tính Kanji có IVS là "2 ký tự." Mắt người thấy 1 ký tự, nhưng chương trình nhận diện 2. Sự không khớp này gây ra vấn đề thực tế trong biểu mẫu nhập tên và hệ thống cơ sở dữ liệu địa chỉ.

Hạn chế Kanji trong tên và số ký tự

Tại Nhật Bản, Kanji được phép dùng trong tên trẻ em bị giới hạn bởi pháp luật. Khoảng 2.999 ký tự - bao gồm "jinmeiyō kanji" (Kanji dùng cho tên) và Kanji thường dùng - được phép sử dụng cho tên.

Bản thân số ký tự trong tên không có giới hạn pháp lý, nhưng tồn tại các ràng buộc thực tế từ hệ thống hộ tịch. Phạm vi ký tự mà hệ thống hộ tịch mỗi thành phố có thể xử lý khác nhau, và cách xử lý dị thể cũng khác nhau tùy địa phương.

Vấn đề đáng chú ý năm 2024 là giới hạn ký tự trên thẻ My Number. Do không gian vật lý trên thẻ, tên chỉ có thể in tối đa khoảng 15 ký tự Kanji. Tên dài hơn có thể bị viết tắt - một ví dụ hiện đại về "giới hạn ký tự vật lý" vẫn gây ra vấn đề.

Số nét và giáo dục - Triết lý thiết kế Kanji theo cấp lớp

1.026 Kanji giáo dục được dạy ở tiểu học được phân bổ theo lớp. Việc phân bổ không chỉ xem xét số nét mà còn tần suất sử dụng và độ khó khái niệm, nhưng mối tương quan với số nét rất rõ ràng.

LớpSố chữSố nét TBChữ nhiều nét nhấtSố nét
Lớp 180~4,512
Lớp 2160~6,818
Lớp 3200~8,216
Lớp 4202~9,520
Lớp 5193~10,120
Lớp 6191~11,319

Số nét trung bình tăng từ khoảng 4,5 ở lớp 1 lên khoảng 11,3 ở lớp 6. Sự tiến triển này được thiết kế phù hợp với sự phát triển kỹ năng vận động tinh và khả năng nhận thức của trẻ. Không dạy "鬱" (29 nét) ở lớp 1 là quyết định hợp lý dựa trên giai đoạn phát triển khả năng viết.

Số nét và nhập liệu viết tay - Thách thức thời đại số

Trên điện thoại thông minh và máy tính bảng, số nét ảnh hưởng trực tiếp đến độ chính xác nhận dạng chữ viết tay. Kanji càng nhiều nét, càng khó viết chính xác trên màn hình nhỏ, và tỷ lệ nhận dạng sai càng cao. Nhìn chung, Kanji 1-5 nét duy trì tỷ lệ nhận dạng trên 95%, nhưng ở 16-20 nét giảm xuống 75-85%, và trên 21 nét có thể dưới 70%.

Ít người có thể viết chính xác "鬱" (29 nét) bằng nhập liệu viết tay trên điện thoại. Trên thực tế, các engine nhận dạng chữ viết tay áp dụng xử lý đặc biệt cho Kanji nhiều nét. Chúng học không chỉ thứ tự và hướng nét mà còn các mẫu kết hợp bộ thủ, suy luận ký tự đúng ngay cả từ đầu vào không hoàn chỉnh. Các engine dựa trên deep learning hiện đại đạt độ chính xác cao ngay cả với Kanji phức tạp, nhưng với những chữ như "鬱," chuyển sang tìm kiếm bộ thủ hoặc nhập bằng phiên âm vẫn đáng tin cậy hơn.

Vấn đề này liên quan đến thiết kế xác thực đầu vào biểu mẫu. Khi biểu mẫu nhập tên chấp nhận viết tay, thiết kế UI tính đến nhận dạng sai Kanji nhiều nét - như hiển thị danh sách ứng viên hoặc cung cấp tùy chọn chuyển đổi phiên âm - là rất quan trọng.

Thú vị là nghiên cứu cho thấy với Kanji nhiều nét, "nhập phiên âm → chuyển đổi" hiệu quả hơn viết tay. Viết tay có thể nhanh hơn với Kanji 10 nét trở xuống, nhưng trên 15 nét, nhập phiên âm nhanh hơn áp đảo. Lý do là tốc độ viết tay của con người giảm tỷ lệ thuận với số nét, trong khi nhập phiên âm chuyển đổi ở tốc độ không đổi bất kể độ phức tạp.

Bài học thực tiễn từ số nét và đếm ký tự

Bài học thực tiễn chính từ mối quan hệ giữa số nét Kanji và số ký tự là "độ phức tạp trực quan và kích thước dữ liệu là hai thứ khác nhau." Giống như sự khác biệt giữa ký tự toàn chiều rộng và nửa chiều rộng, hình dạng bên ngoài của ký tự và cách biểu diễn dữ liệu không nhất thiết phải khớp nhau.

Khi thiết kế giới hạn ký tự cho biểu mẫu web, coi "1 Kanji = 1 ký tự" là thông lệ, nhưng tính đến Kanji có IVS và cặp thay thế khiến việc triển khai không đơn giản. Đặc biệt với biểu mẫu nhập tên, việc xử lý đúng ký tự dị thể ảnh hưởng trực tiếp đến trải nghiệm người dùng.

Kanji 84 nét và Kanji 1 nét đều bằng nhau là "1 ký tự" trong bộ đếm. Sự bình đẳng này là nguyên tắc thiết kế cốt lõi của Unicode - nền tảng để xử lý thống nhất tất cả hệ thống chữ viết trên thế giới. Vượt qua độ phức tạp vật lý của số nét, mọi ký tự đều được đối xử bình đẳng trong thế giới số. Đó vừa là vẻ đẹp, vừa đôi khi là sự phiền toái của Unicode.

Số nét là chỉ số quan trọng trong thư pháp và giáo dục, nhưng bị bỏ qua hoàn toàn trong đếm ký tự số. Chữ "一" 1 nét và chữ "鬱" 29 nét đều tính là 1 ký tự trong tin nhắn Slack và 1 ký tự trong tin nhắn LINE. "Sự dân chủ hóa số nét" này có thể nói là một trong những thay đổi lớn mà truyền thông số mang đến cho thế giới sử dụng Kanji.

Muốn tìm hiểu sâu hơn về thế giới Kanji và mã hóa ký tự, sách liên quan cũng rất hữu ích (tìm sách chữ Hán trên Amazon).

Chia sẻ bài viết này