Quy tắc định dạng văn bản tiếng Nhật | Dấu câu, ký hiệu và phương pháp tốt nhất

9 phút đọc

Văn bản tiếng Nhật xuất hiện trong nhiều ngữ cảnh - tài liệu kinh doanh, nội dung web, bài đăng mạng xã hội và nhiều hơn nữa. Tuy nhiên, nhiều người viết thiếu tự tin trong việc sử dụng đúng dấu câu và ký hiệu. Nắm vững các quy tắc định dạng đúng cải thiện đáng kể cả khả năng đọc và độ tin cậy. Bài viết này bao gồm mọi thứ từ tiêu chuẩn sắp chữ JIS X 4051 đến kiểm tra regex thực tế, cung cấp hướng dẫn có hệ thống về các nguyên tắc cơ bản định dạng văn bản tiếng Nhật. Để tham khảo kỹ lưỡng, hãy xem sách về typography tiếng Nhật. Sử dụng Bộ đếm ký tự để kiểm tra độ dài văn bản của bạn.

Những sự thật bất ngờ về văn bản tiếng Nhật

Tiếng Nhật là một trong những ngôn ngữ hiếm hoi trên thế giới sử dụng đồng thời ba hệ thống chữ viết: hiragana, katakana và kanji, cộng thêm ký tự chữ cái và chữ số hiện đại. Tính đến Unicode 15.1, CJK Unified Ideographs liên quan đến tiếng Nhật vượt quá 97.680 ký tự, và khi bao gồm các khối hiragana, katakana và ký hiệu, tổng số ký tự có thể sử dụng trong văn bản tiếng Nhật đạt khoảng 100.000. Sự phức tạp này khiến các quy tắc định dạng chuẩn hóa trở nên quan trọng hơn so với hầu hết các ngôn ngữ khác.

Một sự thật bất ngờ khác: dấu câu tiếng Nhật có bốn tổ hợp dấu phẩy-dấu chấm khả dĩ. "、。" (sử dụng chung), ",." (bài báo học thuật), "、." (một số bài báo khoa học), và ",。" (hiếm khi sử dụng). Khuyến nghị năm 2022 của Hội đồng Văn hóa Nhật Bản chính thức ủng hộ "、。" cho tài liệu công, mặc dù ",." vẫn tồn tại trong một số lĩnh vực học thuật. Sự không nhất quán này bắt nguồn từ thời Minh Trị, khi các quy ước dấu câu phương Tây lần đầu được áp dụng. "Đề xuất dấu câu" (句読法案) năm 1906 của Bộ Giáo dục là tiêu chuẩn chính thức đầu tiên, nhưng do thiếu quyền lực thực thi, các nhà xuất bản và tổ chức học thuật riêng lẻ đã phát triển các quy ước riêng của họ.

Cơ bản về dấu câu và bối cảnh lịch sử

Dấu câu là các yếu tố thiết yếu chỉ ra nhịp điệu và ranh giới ý nghĩa trong văn bản. Sử dụng đúng cách đảm bảo người đọc có thể theo dõi ý nghĩa dự định mà không bị nhầm lẫn.

Lịch sử dấu câu tiếng Nhật ngắn đến bất ngờ - văn học cổ điển hầu như không chứa dấu câu. Dấu câu chỉ trở nên phổ biến sau thời Minh Trị, lan rộng cùng với việc áp dụng in ấn bằng chữ rời. Dấu chấm câu (。) được chuẩn hóa tương đối sớm như một dấu kết thúc câu, nhưng dấu phẩy đã trải qua thời kỳ cùng tồn tại kéo dài giữa "、" và ",".

Ký hiệuTênCách sử dụngVí dụ
Kuten (dấu chấm)Đánh dấu kết thúc câu今日は晴れです。
Touten (dấu phẩy)Đánh dấu ngắt trong câu朝起きて、顔を洗った。
Nakaguro (dấu chấm giữa)Phân tách các mục song song東京・大阪・名古屋
……Dấu chấm lửng (santen riidaa)Chỉ sự bỏ lửng hoặc lược bỏそれは……難しい。
——Gạch ngangGiải thích bổ sung彼女——つまり妻——が言った。

Mặc dù không có quy tắc tuyệt đối cho việc đặt dấu phẩy, dấu phẩy cải thiện khả năng đọc trong các tình huống sau:

Cách sử dụng dấu phẩy khác nhau tùy theo phương tiện. Hướng dẫn phong cách báo chí có xu hướng giới hạn dấu phẩy ở 2-3 mỗi câu, trong khi tài liệu pháp lý sử dụng chúng tự do để tránh hiểu sai. Đối với nội dung web, một hướng dẫn thực tế là chèn dấu phẩy khi câu vượt quá 60 ký tự để cải thiện khả năng đọc.

Ký tự toàn chiều rộng và nửa chiều rộng

Trong văn bản tiếng Nhật, sự phân biệt giữa ký tự toàn chiều rộng và nửa chiều rộng ảnh hưởng đáng kể đến chất lượng tài liệu. Sự phân biệt này là đặc trưng của tiếng Nhật và bắt nguồn từ sự cùng tồn tại lịch sử của hai bộ ký tự: JIS X 0201 (ký tự Latin bao gồm katakana nửa chiều rộng) và JIS X 0208 (ký tự toàn chiều rộng).

Loại ký tựDùng toàn chiều rộng khiDùng nửa chiều rộng khi
SốVăn bản dọc, thành ngữVăn bản ngang, dữ liệu, ngày tháng
Chữ cáiMột phần của danh từ riêng (logo công ty)Từ tiếng Anh thông thường, viết tắt, URL
KatakanaVăn bản tiếng Nhật tiêu chuẩnTên ga, một số quy ước ngành
NgoặcVăn bản dọcVăn bản ngang, nội dung web
Ký hiệuDấu câu (。、)Dấu hai chấm, dấu chấm phẩy, dấu gạch chéo

So sánh các hướng dẫn phong cách truyền thông lớn, "Sổ tay phóng viên" (記者ハンドブック) của Hãng thông tấn Kyodo quy định bắt buộc dùng số nửa chiều rộng, trong khi "Sổ tay thuật ngữ phát sóng" của NHK cung cấp quy tắc chi tiết cho việc chọn giữa chữ Hán và chữ số Ả Rập. Đối với nội dung web, ký tự chữ-số nửa chiều rộng là tiêu chuẩn, trong khi dấu câu tiếng Nhật dùng toàn chiều rộng. Khoảng trắng toàn chiều rộng nên tránh và thay bằng khoảng trắng nửa chiều rộng.

Các loại ngoặc và cách sử dụng

Lồng ngoặc quá hai cấp sẽ vượt quá giới hạn khả năng đọc. Nếu cần ba cấp trở lên, hãy cân nhắc tái cấu trúc câu. Cũng đảm bảo rằng ngoặc mở và đóng luôn khớp chính xác.

Xử lý ngoặc khác nhau giữa văn bản web và in ấn. Trong sắp chữ in ấn, điều chỉnh khoảng cách tự động (tsume-gumi) được áp dụng xung quanh ngoặc, nhưng trình duyệt web không có tính năng này. Các thuộc tính CSS như font-feature-settings: "halt"text-spacing-trim cung cấp giải pháp một phần, mặc dù hỗ trợ trình duyệt vẫn còn hạn chế.

Quy tắc định dạng số

Định dạng số trong tiếng Nhật phụ thuộc vào việc văn bản được viết ngang hay dọc.

Ngữ cảnhĐịnh dạng đề xuấtVí dụ
Văn bản ngangChữ số Ả Rập nửa chiều rộng3個, 100人, 2025年
Văn bản dọcChữ số Hán三個, 百人, 二〇二五年
Thành ngữChữ số Hán一人ひとり, 四季, 七転び八起き
Danh từ riêngTheo nguyên bản六本木, 四谷, 三菱
Số xấp xỉChữ số Hán数十人, 百数十件

Đối với số lớn, sử dụng dấu phẩy để cải thiện khả năng đọc (ví dụ: 1,000,000). Sử dụng dấu chấm nửa chiều rộng cho số thập phân (ví dụ: 3.14) - không bao giờ dùng dấu chấm toàn chiều rộng. Lưu ý rằng trong văn bản dọc, dấu phẩy không được sử dụng để nhóm chữ số; thay vào đó, số được viết đầy đủ bằng chữ Hán như "百二十三万四千五百六十七".

Xử lý Kinsoku và bối cảnh sắp chữ

Một cơ chế quan trọng nằm dưới chất lượng hiển thị văn bản tiếng Nhật là "xử lý kinsoku" (quy tắc cấm ngắt dòng). JIS X 4051 (Yêu cầu bố cục văn bản tiếng Nhật) quy định ký tự nào không được xuất hiện ở đầu hoặc cuối dòng.

Các ký tự bị cấm ở đầu dòng bao gồm ngoặc đóng (」』)〕】) và dấu câu (。、). Đặt chúng ở đầu dòng tạo ra sự vụng về về mặt thị giác và giảm khả năng đọc. Ngược lại, các ký tự bị cấm ở cuối dòng bao gồm ngoặc mở (「『(〔【), vì ngắt dòng ngay sau ngoặc mở sẽ tách nó quá xa khỏi ngoặc đóng tương ứng.

Trình duyệt web kiểm soát xử lý kinsoku thông qua các thuộc tính CSS như word-breakline-break. Đặt line-break: strict áp dụng quy tắc kinsoku nghiêm ngặt tuân thủ JIS X 4051, trong khi line-break: normal áp dụng quy tắc nới lỏng cho phép ký tự kana nhỏ (ぁ, ぃ, っ, v.v.) ở đầu dòng. Phần mềm sắp chữ in ấn như InDesign cho phép tùy chỉnh bảng kinsoku với kiểm soát chi tiết hơn, nhưng trên web, hành vi phụ thuộc vào cách triển khai của trình duyệt.

Văn bản web và in ấn: Sự khác biệt về định dạng

Văn bản web có những lưu ý riêng khác với in ấn. Hiểu những khác biệt này cho phép định dạng phù hợp cho từng phương tiện.

Khía cạnhVăn bản webIn ấn
Mã hóa ký tựUTF-8 là tiêu chuẩn thực tếShift_JIS vẫn có thể được sử dụng
Xử lý kinsokuPhụ thuộc vào triển khai CSS của trình duyệtKiểm soát chi tiết qua phần mềm sắp chữ
Khoảng cách ngoặcKhông điều chỉnh tự động (hỗ trợ CSS một phần)Xử lý tsume tự động bởi phần mềm sắp chữ
Văn bản dọcCó thể qua writing-mode: vertical-rlHỗ trợ sẵn
Phông chữPhụ thuộc vào môi trường người dùngPhông chữ nhúng đảm bảo tính nhất quán

Cạm bẫy Unicode trong văn bản tiếng Nhật

Unicode chứa nhiều ký tự trông giống nhau nhưng có code point khác nhau, gây nhầm lẫn trong văn bản tiếng Nhật. Không phân biệt đúng các ký tự này dẫn đến vấn đề không mong muốn trong tìm kiếm và xử lý lập trình. Tài liệu tham khảo về mã hóa Unicode toàn diện có thể giúp làm rõ những khác biệt này.

Ký tựCode PointTên chính thứcCách sử dụng
U+30FCKATAKANA-HIRAGANA PROLONGED SOUND MARKNguyên âm dài katakana (コーヒー)
U+2014EM DASHGạch ngang cho giải thích bổ sung
U+2015HORIZONTAL BARĐường kẻ, dải phân cách
U+2212MINUS SIGNDấu trừ toán học
U+30FBKATAKANA MIDDLE DOTPhân tách mục song song (東京・大阪)
·U+00B7MIDDLE DOTDấu chấm giữa phương Tây
U+301CWAVE DASHChỉ phạm vi (tiêu chuẩn JIS)
U+FF5EFULLWIDTH TILDEChỉ phạm vi (quy ước Windows)

"Vấn đề wave dash" đặc biệt nổi tiếng. JIS X 0208 chỉ định wave dash (U+301C) là ký tự chính thức, nhưng triển khai Shift_JIS của Windows đã ánh xạ nó thành fullwidth tilde (U+FF5E). Sự không khớp này gây ra mojibake (văn bản bị lỗi) khi trao đổi văn bản giữa các hệ điều hành. Trong môi trường UTF-8, U+301C được khuyến nghị, nhưng U+FF5E vẫn tồn tại trong một số ngữ cảnh để tương thích ngược với dữ liệu hiện có.

Lỗi phổ biến

Kỹ thuật chuyên nghiệp

  1. Tạo hướng dẫn phong cách: Khi viết theo nhóm, việc ghi lại các quy tắc định dạng ngăn ngừa sự không nhất quán về chất lượng. Ngay cả một danh sách đơn giản 10 mục bao gồm các điều cơ bản như "sử dụng số nửa chiều rộng" và "sử dụng hai dấu chấm lửng liên tiếp" cũng tạo ra sự khác biệt đáng kể.
  2. Sử dụng regex để phát hiện sự không nhất quán: Tìm kiếm regex trong trình soạn thảo văn bản có thể phát hiện sự không nhất quán định dạng trong một lần quét. Dưới đây là các mẫu thường dùng:
    • Số toàn chiều rộng: [0-9]
    • Khoảng trắng toàn chiều rộng: \u3000
    • Ngoặc toàn chiều rộng: [()]
    • Chữ cái toàn chiều rộng: [A-Za-z]
    • Không nhất quán wave dash: [〜~] (trộn U+301C và U+FF5E)
    • Dấu chấm lửng không đúng: \.{3}|・{3}
  3. Sử dụng chuyển văn bản thành giọng nói để hiệu đính: Nghe văn bản được đọc to bởi tính năng trợ năng của hệ điều hành (VoiceOver trên macOS, Narrator trên Windows) giúp phát hiện vị trí dấu câu không tự nhiên và vấn đề nhịp điệu, đặc biệt trong tài liệu dài.
  4. Phương pháp tốt nhất cho CMS với văn bản tiếng Nhật: Khi quản lý văn bản tiếng Nhật trong các nền tảng CMS như WordPress hoặc Notion, hãy chú ý đến khoảng trắng toàn chiều rộng và ký tự đặc biệt được chèn tự động. Kiểm tra ở chế độ soạn thảo HTML hoặc chuyển đổi sang văn bản thuần trước khi xuất bản giúp phát hiện sự không nhất quán định dạng.

Định dạng tiếng Nhật đúng nâng cao độ tin cậy và ấn tượng chuyên nghiệp cho bài viết của bạn. Sử dụng Bộ đếm ký tự để kiểm tra số ký tự và xác minh tính nhất quán định dạng sau khi viết.