JIS (Tiêu chuẩn Công nghiệp Nhật Bản)

Tiêu chuẩn quốc gia về sản phẩm công nghiệp của Nhật Bản. Trong lĩnh vực mã hóa ký tự, JIS X 0208 (bộ ký tự tiếng Nhật cơ bản) và JIS X 0213 (bộ ký tự mở rộng) là nền tảng cho xử lý văn bản tiếng Nhật.

JIS (Japanese Industrial Standards, Tiêu chuẩn Công nghiệp Nhật Bản) là tiêu chuẩn quốc gia được ban hành theo Luật Tiêu chuẩn hóa Công nghiệp Nhật Bản. Năm 2019, tên chính thức đổi từ "Tiêu chuẩn Công nghiệp Nhật Bản" thành "Tiêu chuẩn Sản nghiệp Nhật Bản" nhưng viết tắt JIS vẫn được giữ nguyên. Trong lĩnh vực mã hóa ký tự, bộ ký tự và phương thức mã hóa do JIS quy định đã tạo nên nền tảng cho ngành tin học tiếng Nhật.

Có ba tiêu chuẩn JIS chính liên quan đến mã hóa ký tự tiếng Nhật. JIS X 0201 (1969) là tiêu chuẩn đầu tiên, định nghĩa katakana và chữ-số tương thích ASCII. JIS X 0208 (1978, tên cũ JIS C 6226) định nghĩa 6.879 ký tự bao gồm kanji, trở thành trụ cột của tin học tiếng Nhật. JIS X 0213 (2000) mở rộng JIS X 0208, bao phủ 11.233 ký tự bao gồm kanji cấp 3 và cấp 4.

Kanji trong JIS X 0208 được phân thành "cấp 1" (2.965 chữ) và "cấp 2" (3.390 chữ). Cấp 1 gồm các kanji sử dụng thường xuyên, sắp xếp theo thứ tự ngũ thập âm. Cấp 2 sắp xếp theo bộ thủ và số nét, bao gồm kanji dùng trong tên riêng và thuật ngữ chuyên ngành. Phân loại này cũng phản ánh trong phạm vi byte của Shift_JIS và EUC-JP, với phạm vi giá trị byte khác nhau giữa cấp 1 và cấp 2.

Để sử dụng bộ ký tự JIS trên máy tính, cần có phương thức mã hóa. Từ cùng một bộ ký tự JIS X 0208, ba phương thức mã hóa đã ra đời: ISO-2022-JP (7-bit, dùng cho email), Shift_JIS (Microsoft thiết kế, chuẩn Windows) và EUC-JP (phổ biến trên hệ thống UNIX). Cấu trúc "một bộ ký tự, nhiều phương thức mã hóa" này chính là nguyên nhân gốc rễ của vấn đề mojibake trong tiếng Nhật.

Hiện nay, hầu như không còn lý do để chọn mã hóa JIS cho dự án mới. Unicode (UTF-8) đã trở thành chuẩn thực tế, và tất cả ký tự trong JIS X 0208 đều được bao gồm trong Unicode. Tuy nhiên, trong các hệ thống hành chính, ngân hàng, EDI (trao đổi dữ liệu điện tử) và các hệ thống cũ, Shift_JIS và ISO-2022-JP vẫn được sử dụng, nên kiến thức về chuyển đổi mã hóa ký tự vẫn cần thiết trong thực tế.

Về mối liên hệ với đếm ký tự, ký tự JIS X 0208 chiếm 2 byte trong Shift_JIS, 2 byte trong EUC-JP và 3 byte trong UTF-8. Cùng "1 ký tự kanji" nhưng số byte khác nhau tùy mã hóa, nên khi có giới hạn ký tự dựa trên byte (như VARCHAR trong cơ sở dữ liệu), cần xác nhận mã hóa nào đang được sử dụng làm cơ sở.

Chia sẻ bài viết này