Kanji

Ký tự biểu ý có nguồn gốc từ Trung Quốc. Nhật Bản sử dụng 2.136 jōyō kanji cho giao tiếp hàng ngày.

Kanji là ký tự biểu ý có nguồn gốc từ Trung Quốc và được chia sẻ giữa các hệ thống chữ viết tiếng Nhật, tiếng Trung và tiếng Hàn (CJK). Danh sách Jōyō Kanji sửa đổi năm 2010 của Nhật Bản chỉ định 2.136 ký tự để sử dụng trong báo chí, tài liệu chính thức và giáo dục. Trung Quốc đại lục sử dụng chữ giản thể, trong khi Đài Loan và Hồng Kông sử dụng chữ phồn thể, nghĩa là cùng một kanji có thể có dạng khác nhau tùy thuộc vào khu vực.

Đặc điểm xác định của kanji là mật độ thông tin cao. Mỗi ký tự mang ý nghĩa độc lập, cho phép truyền đạt nhiều thông tin hơn trong ít ký tự hơn. Ví dụ, từ ghép tiếng Nhật 4 ký tự "文字数制限" tương ứng với "character limit" (15 ký tự) trong tiếng Anh. Tính chất này đặc biệt có lợi trên các nền tảng mạng xã hội có giới hạn ký tự, vì người dùng tiếng Nhật và tiếng Trung có thể truyền đạt nhiều thông tin hơn trong cùng số ký tự. Từ điển Kanji giúp tra cứu cách đọc và ý nghĩa.

Kanji có on'yomi (cách đọc gốc Trung) và kun'yomi (cách đọc thuần Nhật), với cùng một ký tự được đọc khác nhau tùy thuộc vào ngữ cảnh. Chỉ riêng kanji "生" có nhiều cách đọc bao gồm "sei", "shō", "i(kiru)", "u(mareru)" và "nama", đặt ra thách thức đáng kể cho người học tiếng Nhật. Sự đa dạng cách đọc này cũng ảnh hưởng đến độ chính xác của hệ thống text-to-speech (TTS) và phân tích hình thái.

Trong Unicode, CJK Unified Ideographs chiếm U+4E00 đến U+9FFF với khoảng 20.000 ký tự. Bao gồm CJK Unified Ideographs Extensions A đến G, hơn 90.000 kanji được định nghĩa, khiến chúng trở thành phần lớn nhất của code point Unicode. CJK Unified Ideographs thống nhất các ký tự có nguồn gốc chung được sử dụng ở Nhật Bản, Trung Quốc, Hàn Quốc và Việt Nam, nghĩa là các ký tự có khác biệt glyph tinh tế có thể chia sẻ cùng code point.

Một quan niệm sai lầm phổ biến là kanji không thay đổi trong hàng nghìn năm. Thực tế, dạng ký tự và cách sử dụng đã phát triển theo thời gian. Nhật Bản đã nhiều lần sửa đổi chính sách kanji chính thức, bao gồm Danh sách Tōyō Kanji năm 1946 và sửa đổi Jōyō Kanji năm 2010. Cải cách chữ giản thể những năm 1950 của Trung Quốc cũng thay đổi đáng kể nhiều ký tự. Sách học Kanji bao gồm nguồn gốc ký tự và kỹ thuật ghi nhớ hiệu quả.

Đối với đếm ký tự, mỗi kanji đếm là một ký tự, nhưng số byte thay đổi theo mã hóa. Trong UTF-8, mỗi kanji sử dụng 3 byte; trong UTF-16, 2 byte (trong BMP); và trong Shift_JIS, 2 byte. Kanji trong khối mở rộng CJK cần surrogate pair (4 byte) trong UTF-16, vì vậy sự khác biệt mã hóa phải được xem xét khi triển khai giới hạn ký tự dựa trên byte.