Mối quan hệ số nét và số ký tự Hán tự

Mối quan hệ kỳ lạ giữa số nét Kanji và số ký tự - Một chữ có tới 84 nét

Khoảng 8 phút đọc

Chữ Kanji "靐" được tạo bằng cách xếp chồng ba chữ "雲" (mây) có 39 nét. "𪚥" gồm bốn chữ "龍" (rồng) có 64 nét. Và "taito," được coi là chữ Kanji có nhiều nét nhất ở Nhật Bản, đạt tới 84 nét. Tuy nhiên, tất cả những chữ Kanji này đều chỉ được tính là "1 ký tự" trong bộ đếm ký tự. Chữ "一" chỉ có 1 nét và chữ "taito" có 84 nét đều là 1 ký tự như nhau. Bài viết này khám phá mối quan hệ giữa số nét Kanji và việc đếm ký tự, bao gồm số lượng Kanji được mã hóa trong Unicode và cách hoạt động của hệ thống ký tự dị thể.

Bảng xếp hạng Kanji có nhiều nét nhất

Về lý thuyết, không có giới hạn trên cho số nét Kanji. Vì có thể kết hợp các Kanji hiện có để tạo chữ mới, số nét có thể tăng không giới hạn. Tuy nhiên, nếu chỉ tính những Kanji có ghi nhận sử dụng thực tế, bảng xếp hạng như sau.

Nhiều Kanji có số nét cao mang cấu trúc gọi là "rigiji" - chữ được tạo bằng cách xếp chồng các thành phần giống nhau. "森" (mộc × 3 = 12 nét), "轟" (xa × 3 = 21 nét), "靐" (lôi × 3 = 39 nét) - nhân đôi hoặc nhân ba cùng một bộ thủ sẽ nhân số nét lên gấp bội. Những chữ ghép này thường mang nghĩa nhấn mạnh như "nhiều" hoặc "mãnh liệt," và phương pháp tạo chữ này đã tồn tại từ thời cổ đại.

Kanji	Số nét	Cách đọc	Cấu tạo	Trạng thái Unicode
Taito (雲×3 + 龍×3)	84 nét	taito, daito, otodo	3 × mây + 3 × rồng	Chưa thu nạp
𪚥	64 nét	tetsu, techi	龍 × 4	Đã thu nạp (U+2A6A5)
𱁬	57 nét	byan	Tên món mì tỉnh Thiểm Tây	Thêm vào Unicode 13.0
靐	39 nét	hyō	雷 × 3	Đã thu nạp (U+9750)
鑱	31 nét	san, zan	金 + 毚	Đã thu nạp (U+9471)
鬱	29 nét	utsu	Nhiều nét nhất trong Kanji thường dùng	Đã thu nạp (U+9B31)

Chữ "taito" 84 nét được cho là đã từng được sử dụng làm họ, nhưng không được thu nạp vào Unicode - nghĩa là không thể hiển thị như một ký tự đơn trên máy tính. Ngược lại, chữ "𪚥" 64 nét đã có trong Unicode và có thể hiển thị trên màn hình với phông chữ tương thích.

Trong 2.136 Kanji thường dùng (jōyō kanji), "鬱" giữ kỷ lục với 29 nét. Nó được thêm vào danh sách jōyō trong lần sửa đổi năm 2010, gây ra tranh luận về việc liệu một chữ phức tạp đến vậy có thực sự "thường dùng" hay không.

Phân bố số nét của Kanji thường dùng

Xem xét phân bố số nét của toàn bộ 2.136 Kanji thường dùng cho thấy "độ phức tạp tiêu chuẩn" của các ký tự được sử dụng hàng ngày trong tiếng Nhật.

Khoảng nét	Số chữ	Tỷ lệ	Kanji đại diện
1-4 nét	~160	7,5%	一, 二, 人, 大, 中, 日
5-8 nét	~620	29%	生, 出, 本, 学, 国, 物
9-12 nét	~730	34%	食, 海, 読, 意, 新, 電
13-16 nét	~440	21%	話, 歴, 機, 環, 職, 臨
17-20 nét	~150	7%	題, 類, 議, 識, 覧, 競
21+ nét	~36	1,7%	鑑, 驚, 鬱, 露, 魔, 籠

Khoảng 9-12 nét chiếm nhiều nhất, khoảng 34% tổng số Kanji thường dùng. Số nét trung bình khoảng 10,3. Nói cách khác, Kanji được sử dụng trong văn bản tiếng Nhật hàng ngày có độ phức tạp trung bình khoảng 10 nét.

Phân bố này phản ánh sự cân bằng giữa khả năng nhận thức và khả năng viết của con người. Quá ít nét thì khó phân biệt ("一," "二," và "三" dễ nhầm lẫn), quá nhiều nét thì khó viết. Khoảng 9-12 nét là "điểm ngọt" nơi số lượng khái niệm lớn nhất có thể được biểu đạt hiệu quả nhất.

Nhiều nét nhưng cùng số byte - Sự bình đẳng của Unicode

Đây là điểm quan trọng nhất từ góc độ đếm ký tự. Dù Kanji có bao nhiêu nét, mối quan hệ giữa số ký tự và số byte vẫn không thay đổi.

Kanji	Số nét	Mã Unicode	Byte UTF-8	Byte UTF-16
一	1 nét	U+4E00	3 byte	2 byte
鬱	29 nét	U+9B31	3 byte	2 byte
靐	39 nét	U+9750	3 byte	2 byte
𪚥	64 nét	U+2A6A5	4 byte	4 byte (cặp thay thế)

Tất cả Kanji trong khối CJK Unified Ideographs cơ bản (U+4E00-U+9FFF) đều chiếm 3 byte trong UTF-8 và 2 byte trong UTF-16, bất kể số nét. Chữ "𪚥" 64 nét nằm trong Extension B (U+20000-U+2A6DF), nên cần 4 byte trong UTF-8 và cặp thay thế (4 byte) trong UTF-16.

Tóm lại, số nét không ảnh hưởng đến số byte. Điều quyết định là ký tự được thu nạp vào khối Unicode nào. Kanji khối cơ bản chiếm 3 byte; Kanji khối mở rộng chiếm 4 byte. Sự khác biệt này được xác định bởi thời điểm ký tự được thêm vào Unicode, không phải số nét.

Sự tăng trưởng của CJK Unified Ideographs trong Unicode

Số lượng Kanji được mã hóa trong Unicode đã tăng đều đặn qua mỗi phiên bản. Như đã giải thích trong kiến thức cơ bản về Unicode, Unicode là tiêu chuẩn xử lý thống nhất tất cả hệ thống chữ viết trên thế giới, và việc mã hóa Kanji là một dự án đặc biệt quy mô lớn.

Phiên bản Unicode	Năm phát hành	CJK Unified Ideographs (tích lũy)	Số lượng thêm
1.0	1991	20.902	20.902 (bộ ban đầu)
3.1	2001	47.035	Thêm lớn qua Extension A + B
5.2	2009	51.110	Thêm Extension C
8.0	2015	80.388	Thêm Extension E
13.0	2020	92.856	Thêm Extension G
15.1	2023	97.680	Thêm Extension H + I
16.0	2024	Hơn 99.000	Thêm Extension J

Từ khoảng 20.000 ký tự trong Unicode 1.0 (1991), CJK Unified Ideographs đã đạt khoảng 99.000 trong Unicode 16.0 (2024) - tăng gấp 5 lần trong hơn 30 năm. Tuy nhiên, Kanji sử dụng hàng ngày chỉ khoảng 3.000 trong tiếng Nhật và khoảng 3.500 trong tiếng Trung giản thể. Hơn 90.000 ký tự còn lại là Kanji hiếm dùng trong văn bản cổ điển, phương ngữ và các dạng dị thể lịch sử.

Bộ chọn dị thể (IVS) - Một ký tự, nhiều hình dạng

Điều làm cho việc đếm ký tự Kanji phức tạp hơn nữa là hệ thống Ideographic Variation Sequence (IVS). IVS phân biệt các hình dạng khác nhau (dị thể) của cùng một Kanji bằng cách thêm bộ chọn biến thể (U+E0100-U+E01EF) sau ký tự cơ sở.

Ví dụ, Kanji "辺" có nhiều dạng biến thể bao gồm "邊" và "邉." IVS được sử dụng để hiển thị chính xác hình dạng chữ đã đăng ký trong hộ tịch. Hệ thống hộ tịch Nhật Bản được cho là chứa khoảng 60.000 dạng chữ Kanji khác nhau, nhiều trong số đó không thể biểu diễn bằng Kanji Unicode tiêu chuẩn.

Khi sử dụng IVS, những gì trông như 1 ký tự trên màn hình thực tế tiêu thụ 2 mã điểm - ký tự cơ sở cộng bộ chọn biến thể. Đây là cùng cấu trúc được thấy trong đếm ký tự emoji, nơi một emoji đơn có thể gồm nhiều mã điểm.

Ký tự cơ sở	Bộ chọn biến thể	Hình dạng hiển thị	Số mã điểm	Mục đích
辺 (U+8FBA)	VS17 (U+E0100)	Dị thể 1 của 辺	2	Tên trong hộ tịch
辺 (U+8FBA)	VS18 (U+E0101)	Dị thể 2 của 辺	2	Tên trong hộ tịch
葛 (U+845B)	VS17 (U+E0100)	Dị thể của 葛	2	Địa danh (Katsushika vs. Katsuragi)
祇 (U+7947)	VS17 (U+E0100)	Dị thể của 祇	2	Hình dạng chính xác của "Gion"

Một số công cụ đếm ký tự tính Kanji có IVS là "2 ký tự." Mắt người thấy 1 ký tự, nhưng chương trình nhận diện 2. Sự không khớp này gây ra vấn đề thực tế trong biểu mẫu nhập tên và hệ thống cơ sở dữ liệu địa chỉ.

Hạn chế Kanji trong tên và số ký tự

Tại Nhật Bản, Kanji được phép dùng trong tên trẻ em bị giới hạn bởi pháp luật. Khoảng 2.999 ký tự - bao gồm "jinmeiyō kanji" (Kanji dùng cho tên) và Kanji thường dùng - được phép sử dụng cho tên.

Bản thân số ký tự trong tên không có giới hạn pháp lý, nhưng tồn tại các ràng buộc thực tế từ hệ thống hộ tịch. Phạm vi ký tự mà hệ thống hộ tịch mỗi thành phố có thể xử lý khác nhau, và cách xử lý dị thể cũng khác nhau tùy địa phương.

Vấn đề đáng chú ý năm 2024 là giới hạn ký tự trên thẻ My Number. Do không gian vật lý trên thẻ, tên chỉ có thể in tối đa khoảng 15 ký tự Kanji. Tên dài hơn có thể bị viết tắt - một ví dụ hiện đại về "giới hạn ký tự vật lý" vẫn gây ra vấn đề.

Số nét và giáo dục - Triết lý thiết kế Kanji theo cấp lớp

1.026 Kanji giáo dục được dạy ở tiểu học được phân bổ theo lớp. Việc phân bổ không chỉ xem xét số nét mà còn tần suất sử dụng và độ khó khái niệm, nhưng mối tương quan với số nét rất rõ ràng.

Lớp	Số chữ	Số nét TB	Chữ nhiều nét nhất	Số nét
Lớp 1	80	~4,5	森	12
Lớp 2	160	~6,8	曜	18
Lớp 3	200	~8,2	整	16
Lớp 4	202	~9,5	競	20
Lớp 5	193	~10,1	護	20
Lớp 6	191	~11,3	臓	19

Số nét trung bình tăng từ khoảng 4,5 ở lớp 1 lên khoảng 11,3 ở lớp 6. Sự tiến triển này được thiết kế phù hợp với sự phát triển kỹ năng vận động tinh và khả năng nhận thức của trẻ. Không dạy "鬱" (29 nét) ở lớp 1 là quyết định hợp lý dựa trên giai đoạn phát triển khả năng viết.

Số nét và nhập liệu viết tay - Thách thức thời đại số

Trên điện thoại thông minh và máy tính bảng, số nét ảnh hưởng trực tiếp đến độ chính xác nhận dạng chữ viết tay. Kanji càng nhiều nét, càng khó viết chính xác trên màn hình nhỏ, và tỷ lệ nhận dạng sai càng cao. Nhìn chung, Kanji 1-5 nét duy trì tỷ lệ nhận dạng trên 95%, nhưng ở 16-20 nét giảm xuống 75-85%, và trên 21 nét có thể dưới 70%.

Ít người có thể viết chính xác "鬱" (29 nét) bằng nhập liệu viết tay trên điện thoại. Trên thực tế, các engine nhận dạng chữ viết tay áp dụng xử lý đặc biệt cho Kanji nhiều nét. Chúng học không chỉ thứ tự và hướng nét mà còn các mẫu kết hợp bộ thủ, suy luận ký tự đúng ngay cả từ đầu vào không hoàn chỉnh. Các engine dựa trên deep learning hiện đại đạt độ chính xác cao ngay cả với Kanji phức tạp, nhưng với những chữ như "鬱," chuyển sang tìm kiếm bộ thủ hoặc nhập bằng phiên âm vẫn đáng tin cậy hơn.

Vấn đề này liên quan đến thiết kế xác thực đầu vào biểu mẫu. Khi biểu mẫu nhập tên chấp nhận viết tay, thiết kế UI tính đến nhận dạng sai Kanji nhiều nét - như hiển thị danh sách ứng viên hoặc cung cấp tùy chọn chuyển đổi phiên âm - là rất quan trọng.

Thú vị là nghiên cứu cho thấy với Kanji nhiều nét, "nhập phiên âm → chuyển đổi" hiệu quả hơn viết tay. Viết tay có thể nhanh hơn với Kanji 10 nét trở xuống, nhưng trên 15 nét, nhập phiên âm nhanh hơn áp đảo. Lý do là tốc độ viết tay của con người giảm tỷ lệ thuận với số nét, trong khi nhập phiên âm chuyển đổi ở tốc độ không đổi bất kể độ phức tạp.

Bài học thực tiễn từ số nét và đếm ký tự

Bài học thực tiễn chính từ mối quan hệ giữa số nét Kanji và số ký tự là "độ phức tạp trực quan và kích thước dữ liệu là hai thứ khác nhau." Giống như sự khác biệt giữa ký tự toàn chiều rộng và nửa chiều rộng, hình dạng bên ngoài của ký tự và cách biểu diễn dữ liệu không nhất thiết phải khớp nhau.

Khi thiết kế giới hạn ký tự cho biểu mẫu web, coi "1 Kanji = 1 ký tự" là thông lệ, nhưng tính đến Kanji có IVS và cặp thay thế khiến việc triển khai không đơn giản. Đặc biệt với biểu mẫu nhập tên, việc xử lý đúng ký tự dị thể ảnh hưởng trực tiếp đến trải nghiệm người dùng.

Kanji 84 nét và Kanji 1 nét đều bằng nhau là "1 ký tự" trong bộ đếm. Sự bình đẳng này là nguyên tắc thiết kế cốt lõi của Unicode - nền tảng để xử lý thống nhất tất cả hệ thống chữ viết trên thế giới. Vượt qua độ phức tạp vật lý của số nét, mọi ký tự đều được đối xử bình đẳng trong thế giới số. Đó vừa là vẻ đẹp, vừa đôi khi là sự phiền toái của Unicode.

Số nét là chỉ số quan trọng trong thư pháp và giáo dục, nhưng bị bỏ qua hoàn toàn trong đếm ký tự số. Chữ "一" 1 nét và chữ "鬱" 29 nét đều tính là 1 ký tự trong tin nhắn Slack và 1 ký tự trong tin nhắn LINE. "Sự dân chủ hóa số nét" này có thể nói là một trong những thay đổi lớn mà truyền thông số mang đến cho thế giới sử dụng Kanji.

Muốn tìm hiểu sâu hơn về thế giới Kanji và mã hóa ký tự, sách liên quan cũng rất hữu ích (tìm sách chữ Hán trên Amazon).

Mối quan hệ kỳ lạ giữa số nét Kanji và số ký tự - Một chữ có tới 84 nét

Bảng xếp hạng Kanji có nhiều nét nhất

Phân bố số nét của Kanji thường dùng

Nhiều nét nhưng cùng số byte - Sự bình đẳng của Unicode

Sự tăng trưởng của CJK Unified Ideographs trong Unicode

Bộ chọn dị thể (IVS) - Một ký tự, nhiều hình dạng

Hạn chế Kanji trong tên và số ký tự

Số nét và giáo dục - Triết lý thiết kế Kanji theo cấp lớp

Số nét và nhập liệu viết tay - Thách thức thời đại số

Bài học thực tiễn từ số nét và đếm ký tự

Chia sẻ bài viết này

Bài viết liên quan

Ký tự toàn chiều rộng và nửa chiều rộng

Ký tự vs. Byte: Hiểu UTF-8 và sự khác biệt mã hóa

Giải thích Unicode: Hướng dẫn mã hóa ký tự

Giới hạn ký tự Prompt AI và kỹ thuật viết

Giới hạn ký tự Amazon: Tiêu đề & mô tả

Hướng dẫn thiết kế độ dài phản hồi API