Loại ký tự (Character Type)

Phân loại các ký tự cấu thành văn bản. Được chia thành các nhóm như chữ cái Latin, chữ số, ký hiệu, chữ Hán, hiragana, katakana, v.v. Là đơn vị cơ bản trong xác thực đầu vào và phân tích văn bản.

Loại ký tự (character type) là cách phân loại các ký tự trong văn bản dựa trên tính chất của chúng. Tiếng Nhật nổi tiếng với sự đa dạng loại ký tự: hiragana, katakana, kanji, chữ Latin toàn chiều rộng, chữ Latin nửa chiều rộng, ký hiệu toàn chiều rộng và nửa chiều rộng cùng tồn tại trong một câu. Tiếng Việt tuy sử dụng bảng chữ cái Latin nhưng có hệ thống dấu thanh phức tạp (sắc, huyền, hỏi, ngã, nặng) và các nguyên âm đặc biệt (ă, â, ê, ô, ơ, ư) tạo nên sự đa dạng riêng.

Trong Unicode, loại ký tự được phân loại qua thuộc tính "General Category". Có 7 nhóm lớn: Letter (chữ cái), Mark (dấu kết hợp), Number (số), Punctuation (dấu câu), Symbol (ký hiệu), Separator (dấu phân cách) và Other (khác), mỗi nhóm lại chia thành các nhóm nhỏ hơn. Các dấu thanh tiếng Việt thuộc nhóm "Mn" (Mark, nonspacing) khi ở dạng kết hợp, nhưng các ký tự có sẵn dấu như "ắ" hay "ổ" thuộc nhóm "Ll" (Letter, lowercase).

Việc xác định loại ký tự trong tiếng Việt có những thách thức riêng. Một chữ cái tiếng Việt có thể được biểu diễn bằng nhiều cách trong Unicode: dạng NFC (đã kết hợp sẵn, ví dụ "ắ" = U+1EAF) hoặc dạng NFD (tách rời, ví dụ "ắ" = a + breve + acute). Điều này ảnh hưởng trực tiếp đến đếm ký tự: cùng một chữ "ắ" có thể được tính là 1 ký tự (NFC) hoặc 3 ký tự (NFD).

Trong xác thực biểu mẫu, việc giới hạn loại ký tự được sử dụng phổ biến. "Chỉ chữ cái và số" (mật khẩu), "chỉ số" (số điện thoại), "chỉ chữ cái Latin không dấu" (tên đăng nhập) là những ràng buộc thường gặp. Với tiếng Việt, cần lưu ý rằng regex /[a-zA-Z]/ không bao gồm các ký tự có dấu. Để khớp chữ cái tiếng Việt, cần sử dụng /[\p{L}]/u hoặc liệt kê đầy đủ các ký tự có dấu.

Phân tích văn bản dựa trên loại ký tự cung cấp các chỉ số hữu ích. Trong tiếng Nhật, tỷ lệ kanji cao cho thấy văn bản mang tính chuyên môn, trong khi nhiều hiragana tạo cảm giác dễ đọc. Tương tự, trong tiếng Việt, tỷ lệ từ Hán-Việt (như "quốc gia", "giáo dục", "kinh tế") so với từ thuần Việt phản ánh mức độ trang trọng của văn bản.

Công cụ đếm ký tự nâng cao có thể phân loại và đếm riêng từng loại ký tự trong văn bản đầu vào. Với tiếng Việt, việc đếm riêng chữ cái có dấu, chữ cái không dấu, số và ký hiệu giúp đánh giá cấu trúc văn bản. Đặc biệt khi chuyển đổi giữa có dấu và không dấu (ví dụ cho URL hoặc tên tệp), số ký tự có thể thay đổi nếu sử dụng mã hóa NFD.

Loại ký tự (Character Type)

Chia sẻ bài viết này

Thuật ngữ liên quan

Bài viết liên quan