Quy tắc định dạng văn bản tiếng Nhật | Dấu câu, ký hiệu và phương pháp tốt nhất
Văn bản tiếng Nhật xuất hiện trong nhiều ngữ cảnh - tài liệu kinh doanh, nội dung web, bài đăng mạng xã hội và nhiều hơn nữa. Tuy nhiên, nhiều người viết thiếu tự tin trong việc sử dụng đúng dấu câu và ký hiệu. Nắm vững các quy tắc định dạng đúng cải thiện đáng kể cả khả năng đọc và độ tin cậy. Bài viết này bao gồm mọi thứ từ tiêu chuẩn sắp chữ JIS X 4051 đến kiểm tra regex thực tế, cung cấp hướng dẫn có hệ thống về các nguyên tắc cơ bản định dạng văn bản tiếng Nhật. Để tham khảo kỹ lưỡng, hãy xem sách về typography tiếng Nhật. Sử dụng Bộ đếm ký tự để kiểm tra độ dài văn bản của bạn.
Những sự thật bất ngờ về văn bản tiếng Nhật
Tiếng Nhật là một trong những ngôn ngữ hiếm hoi trên thế giới sử dụng đồng thời ba hệ thống chữ viết: hiragana, katakana và kanji, cộng thêm ký tự chữ cái và chữ số hiện đại. Tính đến Unicode 15.1, CJK Unified Ideographs liên quan đến tiếng Nhật vượt quá 97.680 ký tự, và khi bao gồm các khối hiragana, katakana và ký hiệu, tổng số ký tự có thể sử dụng trong văn bản tiếng Nhật đạt khoảng 100.000. Sự phức tạp này khiến các quy tắc định dạng chuẩn hóa trở nên quan trọng hơn so với hầu hết các ngôn ngữ khác.
Một sự thật bất ngờ khác: dấu câu tiếng Nhật có bốn tổ hợp dấu phẩy-dấu chấm khả dĩ. "、。" (sử dụng chung), ",." (bài báo học thuật), "、." (một số bài báo khoa học), và ",。" (hiếm khi sử dụng). Khuyến nghị năm 2022 của Hội đồng Văn hóa Nhật Bản chính thức ủng hộ "、。" cho tài liệu công, mặc dù ",." vẫn tồn tại trong một số lĩnh vực học thuật. Sự không nhất quán này bắt nguồn từ thời Minh Trị, khi các quy ước dấu câu phương Tây lần đầu được áp dụng. "Đề xuất dấu câu" (句読法案) năm 1906 của Bộ Giáo dục là tiêu chuẩn chính thức đầu tiên, nhưng do thiếu quyền lực thực thi, các nhà xuất bản và tổ chức học thuật riêng lẻ đã phát triển các quy ước riêng của họ.
Cơ bản về dấu câu và bối cảnh lịch sử
Dấu câu là các yếu tố thiết yếu chỉ ra nhịp điệu và ranh giới ý nghĩa trong văn bản. Sử dụng đúng cách đảm bảo người đọc có thể theo dõi ý nghĩa dự định mà không bị nhầm lẫn.
Lịch sử dấu câu tiếng Nhật ngắn đến bất ngờ - văn học cổ điển hầu như không chứa dấu câu. Dấu câu chỉ trở nên phổ biến sau thời Minh Trị, lan rộng cùng với việc áp dụng in ấn bằng chữ rời. Dấu chấm câu (。) được chuẩn hóa tương đối sớm như một dấu kết thúc câu, nhưng dấu phẩy đã trải qua thời kỳ cùng tồn tại kéo dài giữa "、" và ",".
| Ký hiệu | Tên | Cách sử dụng | Ví dụ |
|---|---|---|---|
| 。 | Kuten (dấu chấm) | Đánh dấu kết thúc câu | 今日は晴れです。 |
| 、 | Touten (dấu phẩy) | Đánh dấu ngắt trong câu | 朝起きて、顔を洗った。 |
| ・ | Nakaguro (dấu chấm giữa) | Phân tách các mục song song | 東京・大阪・名古屋 |
| …… | Dấu chấm lửng (santen riidaa) | Chỉ sự bỏ lửng hoặc lược bỏ | それは……難しい。 |
| —— | Gạch ngang | Giải thích bổ sung | 彼女——つまり妻——が言った。 |
Mặc dù không có quy tắc tuyệt đối cho việc đặt dấu phẩy, dấu phẩy cải thiện khả năng đọc trong các tình huống sau:
- Sau chủ ngữ dài
- Sau liên từ (しかし、したがって、)
- Giữa các mục song song
- Tại ranh giới ý nghĩa để tránh đọc nhầm
- Khi mối quan hệ giữa từ bổ nghĩa và từ được bổ nghĩa không rõ ràng
Cách sử dụng dấu phẩy khác nhau tùy theo phương tiện. Hướng dẫn phong cách báo chí có xu hướng giới hạn dấu phẩy ở 2-3 mỗi câu, trong khi tài liệu pháp lý sử dụng chúng tự do để tránh hiểu sai. Đối với nội dung web, một hướng dẫn thực tế là chèn dấu phẩy khi câu vượt quá 60 ký tự để cải thiện khả năng đọc.
Ký tự toàn chiều rộng và nửa chiều rộng
Trong văn bản tiếng Nhật, sự phân biệt giữa ký tự toàn chiều rộng và nửa chiều rộng ảnh hưởng đáng kể đến chất lượng tài liệu. Sự phân biệt này là đặc trưng của tiếng Nhật và bắt nguồn từ sự cùng tồn tại lịch sử của hai bộ ký tự: JIS X 0201 (ký tự Latin bao gồm katakana nửa chiều rộng) và JIS X 0208 (ký tự toàn chiều rộng).
| Loại ký tự | Dùng toàn chiều rộng khi | Dùng nửa chiều rộng khi |
|---|---|---|
| Số | Văn bản dọc, thành ngữ | Văn bản ngang, dữ liệu, ngày tháng |
| Chữ cái | Một phần của danh từ riêng (logo công ty) | Từ tiếng Anh thông thường, viết tắt, URL |
| Katakana | Văn bản tiếng Nhật tiêu chuẩn | Tên ga, một số quy ước ngành |
| Ngoặc | Văn bản dọc | Văn bản ngang, nội dung web |
| Ký hiệu | Dấu câu (。、) | Dấu hai chấm, dấu chấm phẩy, dấu gạch chéo |
So sánh các hướng dẫn phong cách truyền thông lớn, "Sổ tay phóng viên" (記者ハンドブック) của Hãng thông tấn Kyodo quy định bắt buộc dùng số nửa chiều rộng, trong khi "Sổ tay thuật ngữ phát sóng" của NHK cung cấp quy tắc chi tiết cho việc chọn giữa chữ Hán và chữ số Ả Rập. Đối với nội dung web, ký tự chữ-số nửa chiều rộng là tiêu chuẩn, trong khi dấu câu tiếng Nhật dùng toàn chiều rộng. Khoảng trắng toàn chiều rộng nên tránh và thay bằng khoảng trắng nửa chiều rộng.
Các loại ngoặc và cách sử dụng
- 「」(Kagi-kakko): Dùng cho hội thoại, trích dẫn và từ nhấn mạnh. Loại ngoặc được sử dụng thường xuyên nhất.
- 『』(Niju kagi-kakko): Dùng cho tên sách, tên tác phẩm và trích dẫn lồng nhau trong kagi-kakko.
- () (Maru-kakko): Dùng cho giải thích bổ sung, cách đọc và tên đầy đủ của từ viết tắt.
- 【】(Sumi-tsuki kakko): Dùng cho tiêu đề và nhãn danh mục. Đôi khi được sử dụng như thay thế cho chữ đậm trên web.
Lồng ngoặc quá hai cấp sẽ vượt quá giới hạn khả năng đọc. Nếu cần ba cấp trở lên, hãy cân nhắc tái cấu trúc câu. Cũng đảm bảo rằng ngoặc mở và đóng luôn khớp chính xác.
Xử lý ngoặc khác nhau giữa văn bản web và in ấn. Trong sắp chữ in ấn, điều chỉnh khoảng cách tự động (tsume-gumi) được áp dụng xung quanh ngoặc, nhưng trình duyệt web không có tính năng này. Các thuộc tính CSS như font-feature-settings: "halt" và text-spacing-trim cung cấp giải pháp một phần, mặc dù hỗ trợ trình duyệt vẫn còn hạn chế.
Quy tắc định dạng số
Định dạng số trong tiếng Nhật phụ thuộc vào việc văn bản được viết ngang hay dọc.
| Ngữ cảnh | Định dạng đề xuất | Ví dụ |
|---|---|---|
| Văn bản ngang | Chữ số Ả Rập nửa chiều rộng | 3個, 100人, 2025年 |
| Văn bản dọc | Chữ số Hán | 三個, 百人, 二〇二五年 |
| Thành ngữ | Chữ số Hán | 一人ひとり, 四季, 七転び八起き |
| Danh từ riêng | Theo nguyên bản | 六本木, 四谷, 三菱 |
| Số xấp xỉ | Chữ số Hán | 数十人, 百数十件 |
Đối với số lớn, sử dụng dấu phẩy để cải thiện khả năng đọc (ví dụ: 1,000,000). Sử dụng dấu chấm nửa chiều rộng cho số thập phân (ví dụ: 3.14) - không bao giờ dùng dấu chấm toàn chiều rộng. Lưu ý rằng trong văn bản dọc, dấu phẩy không được sử dụng để nhóm chữ số; thay vào đó, số được viết đầy đủ bằng chữ Hán như "百二十三万四千五百六十七".
Xử lý Kinsoku và bối cảnh sắp chữ
Một cơ chế quan trọng nằm dưới chất lượng hiển thị văn bản tiếng Nhật là "xử lý kinsoku" (quy tắc cấm ngắt dòng). JIS X 4051 (Yêu cầu bố cục văn bản tiếng Nhật) quy định ký tự nào không được xuất hiện ở đầu hoặc cuối dòng.
Các ký tự bị cấm ở đầu dòng bao gồm ngoặc đóng (」』)〕】) và dấu câu (。、). Đặt chúng ở đầu dòng tạo ra sự vụng về về mặt thị giác và giảm khả năng đọc. Ngược lại, các ký tự bị cấm ở cuối dòng bao gồm ngoặc mở (「『(〔【), vì ngắt dòng ngay sau ngoặc mở sẽ tách nó quá xa khỏi ngoặc đóng tương ứng.
Trình duyệt web kiểm soát xử lý kinsoku thông qua các thuộc tính CSS như word-break và line-break. Đặt line-break: strict áp dụng quy tắc kinsoku nghiêm ngặt tuân thủ JIS X 4051, trong khi line-break: normal áp dụng quy tắc nới lỏng cho phép ký tự kana nhỏ (ぁ, ぃ, っ, v.v.) ở đầu dòng. Phần mềm sắp chữ in ấn như InDesign cho phép tùy chỉnh bảng kinsoku với kiểm soát chi tiết hơn, nhưng trên web, hành vi phụ thuộc vào cách triển khai của trình duyệt.
Văn bản web và in ấn: Sự khác biệt về định dạng
Văn bản web có những lưu ý riêng khác với in ấn. Hiểu những khác biệt này cho phép định dạng phù hợp cho từng phương tiện.
| Khía cạnh | Văn bản web | In ấn |
|---|---|---|
| Mã hóa ký tự | UTF-8 là tiêu chuẩn thực tế | Shift_JIS vẫn có thể được sử dụng |
| Xử lý kinsoku | Phụ thuộc vào triển khai CSS của trình duyệt | Kiểm soát chi tiết qua phần mềm sắp chữ |
| Khoảng cách ngoặc | Không điều chỉnh tự động (hỗ trợ CSS một phần) | Xử lý tsume tự động bởi phần mềm sắp chữ |
| Văn bản dọc | Có thể qua writing-mode: vertical-rl | Hỗ trợ sẵn |
| Phông chữ | Phụ thuộc vào môi trường người dùng | Phông chữ nhúng đảm bảo tính nhất quán |
- Ngắt dòng và đoạn văn: HTML phân biệt rõ ràng giữa ngắt dòng và đoạn văn. Sử dụng thẻ đoạn văn cho phân chia ngữ nghĩa.
- Mã hóa ký tự: Sử dụng UTF-8 làm tiêu chuẩn và luôn chỉ định meta charset. Tránh Shift_JIS hoặc EUC-JP trừ khi có yêu cầu cụ thể.
- Thoát ký tự đặc biệt: Chuyển đổi
<,>, và&trong HTML thành tham chiếu thực thể. - Khoảng trắng: Khoảng trắng toàn chiều rộng (U+3000) có thể gây ra vấn đề bố cục không mong muốn; sử dụng khoảng trắng nửa chiều rộng (U+0020) một cách nhất quán.
- Vấn đề sao chép-dán: Văn bản sao chép từ Word hoặc PDF có thể chứa các ký tự trông giống nhau nhưng được mã hóa khác nhau (ví dụ: gạch nối toàn chiều rộng so với gạch nối nửa chiều rộng so với dấu trừ).
Cạm bẫy Unicode trong văn bản tiếng Nhật
Unicode chứa nhiều ký tự trông giống nhau nhưng có code point khác nhau, gây nhầm lẫn trong văn bản tiếng Nhật. Không phân biệt đúng các ký tự này dẫn đến vấn đề không mong muốn trong tìm kiếm và xử lý lập trình. Tài liệu tham khảo về mã hóa Unicode toàn diện có thể giúp làm rõ những khác biệt này.
| Ký tự | Code Point | Tên chính thức | Cách sử dụng |
|---|---|---|---|
| ー | U+30FC | KATAKANA-HIRAGANA PROLONGED SOUND MARK | Nguyên âm dài katakana (コーヒー) |
| — | U+2014 | EM DASH | Gạch ngang cho giải thích bổ sung |
| ― | U+2015 | HORIZONTAL BAR | Đường kẻ, dải phân cách |
| − | U+2212 | MINUS SIGN | Dấu trừ toán học |
| ・ | U+30FB | KATAKANA MIDDLE DOT | Phân tách mục song song (東京・大阪) |
| · | U+00B7 | MIDDLE DOT | Dấu chấm giữa phương Tây |
| 〜 | U+301C | WAVE DASH | Chỉ phạm vi (tiêu chuẩn JIS) |
| ~ | U+FF5E | FULLWIDTH TILDE | Chỉ phạm vi (quy ước Windows) |
"Vấn đề wave dash" đặc biệt nổi tiếng. JIS X 0208 chỉ định wave dash (U+301C) là ký tự chính thức, nhưng triển khai Shift_JIS của Windows đã ánh xạ nó thành fullwidth tilde (U+FF5E). Sự không khớp này gây ra mojibake (văn bản bị lỗi) khi trao đổi văn bản giữa các hệ điều hành. Trong môi trường UTF-8, U+301C được khuyến nghị, nhưng U+FF5E vẫn tồn tại trong một số ngữ cảnh để tương thích ngược với dữ liệu hiện có.
Lỗi phổ biến
- Trộn lẫn khoảng trắng toàn chiều rộng và nửa chiều rộng: Trộn cả hai trong cùng một tài liệu không chỉ phá vỡ tính nhất quán thị giác mà còn có thể gây ra hành vi không mong muốn trong xử lý chuỗi.
- Ngoặc không khớp: Ngoặc mở và đóng không khớp, hoặc trộn các loại ngoặc (ví dụ: 「text』), là một trong những lỗi hiệu đính thường bị bỏ qua nhất.
- Vấn đề mã hóa từ sao chép-dán: Văn bản dán từ Word hoặc PDF có thể chứa các ký tự có code point khác nhau nhưng trông giống hệt nhau. Luôn xác minh trong trình soạn thảo văn bản sau khi dán.
- Sử dụng dấu chấm lửng không đúng: Dấu chấm lửng tiếng Nhật đúng sử dụng hai ký tự "…" liên tiếp (U+2026) để tạo thành "……". Thay thế bằng ba dấu chấm giữa "・・・" hoặc ba dấu chấm "..." là không đúng.
Kỹ thuật chuyên nghiệp
- Tạo hướng dẫn phong cách: Khi viết theo nhóm, việc ghi lại các quy tắc định dạng ngăn ngừa sự không nhất quán về chất lượng. Ngay cả một danh sách đơn giản 10 mục bao gồm các điều cơ bản như "sử dụng số nửa chiều rộng" và "sử dụng hai dấu chấm lửng liên tiếp" cũng tạo ra sự khác biệt đáng kể.
- Sử dụng regex để phát hiện sự không nhất quán: Tìm kiếm regex trong trình soạn thảo văn bản có thể phát hiện sự không nhất quán định dạng trong một lần quét. Dưới đây là các mẫu thường dùng:
- Số toàn chiều rộng:
[0-9] - Khoảng trắng toàn chiều rộng:
\u3000 - Ngoặc toàn chiều rộng:
[()] - Chữ cái toàn chiều rộng:
[A-Za-z] - Không nhất quán wave dash:
[〜~](trộn U+301C và U+FF5E) - Dấu chấm lửng không đúng:
\.{3}|・{3}
- Số toàn chiều rộng:
- Sử dụng chuyển văn bản thành giọng nói để hiệu đính: Nghe văn bản được đọc to bởi tính năng trợ năng của hệ điều hành (VoiceOver trên macOS, Narrator trên Windows) giúp phát hiện vị trí dấu câu không tự nhiên và vấn đề nhịp điệu, đặc biệt trong tài liệu dài.
- Phương pháp tốt nhất cho CMS với văn bản tiếng Nhật: Khi quản lý văn bản tiếng Nhật trong các nền tảng CMS như WordPress hoặc Notion, hãy chú ý đến khoảng trắng toàn chiều rộng và ký tự đặc biệt được chèn tự động. Kiểm tra ở chế độ soạn thảo HTML hoặc chuyển đổi sang văn bản thuần trước khi xuất bản giúp phát hiện sự không nhất quán định dạng.
Định dạng tiếng Nhật đúng nâng cao độ tin cậy và ấn tượng chuyên nghiệp cho bài viết của bạn. Sử dụng Bộ đếm ký tự để kiểm tra số ký tự và xác minh tính nhất quán định dạng sau khi viết.