JIS (日本产业规格)
日本的工业产品国家标准。在字符编码领域,JIS X 0208 (基本日文字符集) 和 JIS X 0213 (扩展字符集) 构成了日文文本处理的基础。
JIS (Japanese Industrial Standards,日本产业规格) 是依据日本产业标准化法制定的国家标准。2019 年法律修订后,名称从「日本工业规格」改为「日本产业规格」,但缩写 JIS 沿用至今。在字符编码领域,JIS 制定的字符集和编码方案奠定了日文计算机处理的基础。
与日文字符编码相关的主要 JIS 标准有三个。JIS X 0201 (1969 年) 定义了片假名和 ASCII 兼容的英文数字字符,是最早的标准。JIS X 0208 (1978 年,旧称 JIS C 6226) 定义了包含汉字在内的 6,879 个字符,成为日文计算机处理的核心。JIS X 0213 (2000 年) 在 JIS X 0208 基础上扩展,涵盖了第三水准和第四水准汉字,共计 11,233 个字符。
JIS X 0208 的汉字分为「第一水准」(2,965 字) 和「第二水准」(3,390 字)。第一水准收录使用频率较高的汉字,按读音的五十音顺序排列;第二水准按部首笔画顺序排列,包含人名用汉字和专业术语中使用的汉字。这种分类也反映在 Shift_JIS 和 EUC-JP 的字节范围中。
要在计算机上实际使用 JIS 标准的字符集,需要编码方案。同一个 JIS X 0208 字符集衍生出了三种编码方案:ISO-2022-JP (7 位编码,用于邮件)、Shift_JIS (Microsoft 设计,Windows 标准)、EUC-JP (UNIX 系统普及)。「一个字符集对应多种编码方案」的结构,正是日文乱码问题的根本原因。
如今,新项目几乎不会选择 JIS 系编码。Unicode (UTF-8) 已成为事实标准,JIS X 0208 的所有字符都已被 Unicode 收录。然而,在行政系统、金融机构的核心系统、EDI (电子数据交换) 等遗留系统中,Shift_JIS 和 ISO-2022-JP 仍在使用,字符编码转换的知识在实务中依然不可或缺。
在字符计数方面,JIS X 0208 的字符在 Shift_JIS 中占 2 字节,在 EUC-JP 中占 2 字节,在 UTF-8 中占 3 字节。同样是「一个汉字」,不同编码下的字节数各不相同。因此,在基于字节数的字符数限制 (如数据库的 VARCHAR) 中,必须确认其前提是哪种编码。这一点对于处理中日韩文本的系统尤为重要。