CJK (Chinese-Japanese-Korean Unified Ideographs)
Hệ thống xử lý ký tự Trung, Nhật và Hàn được thống nhất trong Unicode dưới dạng CJK Unified Ideographs.
CJK là viết tắt của Chinese, Japanese và Korean (Trung, Nhật, Hàn), chỉ hệ thống ký tự biểu ý chung. Trong Unicode, chúng được gán code point dưới dạng CJK Unified Ideographs, với khoảng 20.000 ký tự trong Basic Multilingual Plane (BMP) từ U+4E00 đến U+9FFF, và hơn 90.000 ký tự bao gồm các vùng mở rộng.
Han Unification (Thống nhất Hán) là nguyên tắc thiết kế cốt lõi của CJK trong Unicode. Các ký tự từ tiếng Trung giản thể, tiếng Trung phồn thể, kanji tiếng Nhật và hanja tiếng Hàn có cùng nguồn gốc lịch sử được gán cùng code point. Ví dụ, ký tự "直" có glyph hơi khác nhau giữa tiếng Trung, tiếng Nhật và tiếng Hàn, nhưng trong Unicode nó là cùng U+76F4. Vì glyph hiển thị phụ thuộc vào phông chữ, việc chỉ định chính xác thuộc tính HTML lang rất quan trọng để trình duyệt chọn phông chữ phù hợp. Sách thống nhất CJK Unicode giải thích hệ thống.
Ký tự CJK được hiển thị ở chiều rộng đầy đủ và tiêu tốn 3 byte mỗi ký tự trong UTF-8 hoặc 2 byte trong UTF-16 (trong BMP). Cùng một văn bản 100 ký tự sẽ là 100 byte bằng tiếng Anh (ASCII) nhưng 300 byte bằng tiếng Nhật (UTF-8), tạo ra khoảng cách đáng kể giữa số ký tự và số byte. Lập kế hoạch dung lượng cơ sở dữ liệu và ước tính băng thông mạng phải tính đến sự khác biệt này.
Đặc điểm nổi bật của văn bản CJK là không có khoảng trắng giữa các từ. Trong khi tiếng Anh sử dụng khoảng trắng làm dấu phân cách từ, tiếng Nhật và tiếng Trung không có dấu phân cách như vậy. Điều này có nghĩa là lập chỉ mục công cụ tìm kiếm, ngắt dòng và đếm từ yêu cầu phân tích hình thái (như MeCab cho tiếng Nhật) hoặc phương pháp N-gram.
Han Unification đã đối mặt với chỉ trích. Glyph tiếng Nhật cho "骨" khác với glyph tiếng Trung, nhưng chúng chia sẻ cùng code point. Để sử dụng các glyph khác nhau trong cùng một tài liệu, cần điều khiển CSS font-family hoặc cài đặt tính năng phông chữ. IVS (Ideographic Variation Sequence) của Unicode giải quyết một phần vấn đề này.
Đối với đếm ký tự, ký tự CJK mang nhiều thông tin hơn mỗi ký tự, cần ít ký tự hơn tiếng Anh để truyền tải cùng nội dung. Trên mạng xã hội có giới hạn ký tự, người dùng ngôn ngữ CJK có thể đóng gói nhiều thông tin hơn vào một bài đăng so với người dùng tiếng Anh. Sách xử lý văn bản CJK bao gồm các thách thức và giải pháp theo ngôn ngữ cụ thể.