JIS (日本産業規格)

日本の産業製品に関する国家規格。文字コードの分野では JIS X 0208 (基本日本語文字集合) や JIS X 0213 (拡張文字集合) が、日本語テキスト処理の基盤となっている。

JIS (Japanese Industrial Standards、日本産業規格) は、日本の産業標準化法に基づいて制定される国家規格です。2019 年の法改正で「日本工業規格」から「日本産業規格」に名称が変わりましたが、略称の JIS はそのまま使われています。文字コードの分野では、JIS が定めた文字集合と符号化方式が日本語コンピューティングの基盤を形成してきました。

日本語の文字コードに関する主要な JIS 規格は 3 つあります。JIS X 0201 (1969 年) は片仮名と ASCII 互換の英数字を定義した最初の規格です。JIS X 0208 (1978 年、旧称 JIS C 6226) は漢字を含む 6,879 文字を定義し、日本語コンピューティングの中核となりました。JIS X 0213 (2000 年) は JIS X 0208 を拡張し、第三水準・第四水準漢字を含む 11,233 文字をカバーしています。

JIS X 0208 の漢字は「第一水準」(2,965 字) と「第二水準」(3,390 字) に分類されます。第一水準は使用頻度の高い漢字で、読みの五十音順に配列されています。第二水準は部首画数順で、人名用漢字や専門用語に使われる漢字が含まれます。この分類は Shift_JIS や EUC-JP のバイト範囲にも反映されており、第一水準と第二水準でバイト値の範囲が異なります。

JIS 規格の文字集合を実際にコンピュータで使うには、符号化方式が必要です。同じ JIS X 0208 の文字集合に対して、ISO-2022-JP (7 ビット、メール用)、Shift_JIS (Microsoft が設計、Windows 標準)、EUC-JP (UNIX 系で普及) という 3 つの符号化方式が生まれました。この「一つの文字集合に複数の符号化方式」という構造が、日本語の文字化け問題の根本原因です。

現在、新規開発で JIS 系のエンコーディングを選択する場面はほぼありません。Unicode (UTF-8) が事実上の標準となり、JIS X 0208 の文字はすべて Unicode に包含されています。しかし、行政システム、金融機関の基幹系、EDI (電子データ交換) など、レガシーシステムでは依然として Shift_JIS や ISO-2022-JP が使われており、文字コード変換の知識は実務上不可欠です。

文字数カウントとの関連では、JIS X 0208 の文字は Shift_JIS で 2 バイト、EUC-JP で 2 バイト、UTF-8 で 3 バイトです。同じ「漢字 1 文字」でもエンコーディングによってバイト数が異なるため、バイト数ベースの文字数制限 (データベースの VARCHAR など) では、どのエンコーディングを前提としているかを確認する必要があります。

この記事を共有