Từ ngắn nhất và dài nhất thế giới - Thế giới cực đoan của số ký tự qua các ngôn ngữ
Tên hóa học của protein "titin" dài 189.819 ký tự. Chỉ riêng việc đọc to đã mất ba tiếng rưỡi, và nó không xuất hiện trong bất kỳ từ điển tiếng Anh nào. Trong khi đó, có những ngôn ngữ tồn tại từ chỉ gồm 1 ký tự. Nhìn các ngôn ngữ trên thế giới qua lăng kính số ký tự, ta thấy con người đã nén và mở rộng ý nghĩa bằng những cách đa dạng đến kinh ngạc. Bài viết này giới thiệu các từ ngắn nhất và dài nhất trong từng ngôn ngữ với số ký tự cụ thể.
Những từ ngắn nhất thế giới
"Từ có ý nghĩa chỉ với 1 ký tự" tồn tại trong nhiều ngôn ngữ hơn bạn nghĩ. Tiếng Anh có "I" (tôi) và "a" (một) là ví dụ ai cũng biết, nhưng tiếng Nhật còn cực đoan hơn. Các chữ Hán như 目 (mắt), 手 (tay), 歯 (răng), 火 (lửa), 木 (cây) là những từ hoàn chỉnh chỉ với một ký tự.
Tiếng Trung còn đi xa hơn - hầu như mọi chữ Hán đều hoạt động như một từ độc lập có nghĩa hoàn chỉnh. Các ký tự như 人 (người), 大 (lớn), 水 (nước), 山 (núi) gói gọn cả khái niệm trong một ký tự. Thiết kế ngôn ngữ hoàn thành ý nghĩa trong một ký tự là đặc điểm thú vị khi xem xét mối quan hệ giữa ký tự và byte.
| Ngôn ngữ | Ví dụ từ ngắn nhất | Số ký tự | Nghĩa | Ghi chú |
|---|---|---|---|---|
| Tiếng Anh | I, a | 1 ký tự | tôi / một | I viết hoa là 1 byte |
| Tiếng Nhật (Hán tự) | 目, 手, 火 | 1 ký tự | mắt, tay, lửa | 3 byte trong UTF-8 |
| Tiếng Trung | 人, 大, 水 | 1 ký tự | người, lớn, nước | Gần như mọi chữ Hán đều là từ 1 ký tự |
| Tiếng Hàn | 나 (na) | 1 ký tự | tôi | 1 ký tự Hangul = 3 byte UTF-8 |
| Tiếng Việt | ở | 1 ký tự | sống, ở | 1 ký tự có dấu thanh |
Điểm đáng chú ý là mật độ thông tin của "1 ký tự" khác nhau rất lớn giữa các ngôn ngữ. Tiếng Anh "a" là 1 byte, nhưng tiếng Nhật "目" là 3 byte trong UTF-8. Cùng "1 ký tự" nhưng lượng dữ liệu máy tính xử lý chênh lệch 3 lần. Đây là cùng cấu trúc với cách sự khác biệt toàn chiều rộng và nửa chiều rộng ảnh hưởng đến đếm ký tự.
Từ dài trong ngôn ngữ châu Âu - Văn hóa từ ghép của tiếng Đức
Tiếng Đức được gọi là "vua từ ghép". Danh từ có thể nối vô hạn để tạo từ mới, về lý thuyết có thể tạo ra từ dài vô tận.
| Từ | Số ký tự | Nghĩa | Bối cảnh |
|---|---|---|---|
| Donaudampfschifffahrtselektrizitätenhauptbetriebswerkbauunterbeamtengesellschaft | 80 ký tự | Hiệp hội quan chức cấp dưới của trụ sở quản lý dịch vụ điện tàu hơi nước sông Danube | Kỷ lục Guinness (tiếng Đức) |
| Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz | 63 ký tự | Luật ủy quyền giám sát ghi nhãn thịt bò | Tên luật thực tế đến 2003 |
| Kraftfahrzeughaftpflichtversicherung | 36 ký tự | Bảo hiểm trách nhiệm xe cơ giới | Từ ghép thường dùng |
Năm 2013, bang Mecklenburg-Vorpommern của Đức bãi bỏ tên luật 63 ký tự. Đây là luật về bệnh bò điên trở nên không cần thiết do thay đổi quy định EU. Việc bãi bỏ trở thành tin tức với tiêu đề "từ dài nhất tiếng Đức đã biến mất".
Tên địa danh dài nhất thế giới
| Tên địa danh | Số ký tự | Vị trí | Ngôn ngữ |
|---|---|---|---|
| Taumatawhakatangihangakoauauotamateaturipukakapikimaungahoronukupokaiwhenuakitanatahu | 85 ký tự | New Zealand | Tiếng Maori |
| Llanfairpwllgwyngyllgogerychwyrndrobwllllantysiliogogogoch | 58 ký tự | Wales (Anh) | Tiếng Wales |
| กรุงเทพมหานคร... (tên chính thức Bangkok) | 168 ký tự (chữ Thái) | Thái Lan | Tiếng Thái |
| Chargoggagoggmanchauggagoggchaubunagungamaugg | 45 ký tự | Massachusetts (Mỹ) | Gốc Algonquin |
Tên ngọn đồi New Zealand có nghĩa "nơi Tamatea, người đàn ông có đầu gối lớn, trượt, leo và nuốt núi, thổi sáo cho người yêu". Văn hóa Maori đặt tên địa danh bằng cách mô tả sự kiện xảy ra tại đó, tạo ra những tên cực dài.
Ngược lại, tên địa danh ngắn nhất thế giới là "Å" (1 ký tự) ở Na Uy và "Ö" (1 ký tự) ở Thụy Điển. Cả hai đều là khu định cư thực tế xuất hiện trên bản đồ. Tên địa danh 1 ký tự có thể gây vấn đề trong thiết kế URL và cơ sở dữ liệu, gây khó khăn cho nhà phát triển theo hướng ngược lại với giới hạn ký tự URL.
Tên hóa chất - Đỉnh cao của số ký tự
| Tên chất | Số ký tự | Loại | Có trong từ điển |
|---|---|---|---|
| Tên hóa học của titin | 189.819 ký tự | Protein | Không |
| Methionylthreonylthreonylglutaminylarginyl... (viết tắt) | 1.185 ký tự | Tryptophan synthetase | Không |
| Pneumonoultramicroscopicsilicovolcanoconiosis | 45 ký tự | Một loại bệnh bụi phổi silic | Có (từ điển tiếng Anh) |
| Supercalifragilisticexpialidocious | 34 ký tự | Từ tạo trong phim | Một số từ điển |
Từ dài nhất trong từ điển tiếng Anh là "Pneumonoultramicroscopicsilicovolcanoconiosis" (45 ký tự), chỉ bệnh phổi do hít phải hạt tro núi lửa mịn. Tuy nhiên, từ này được tạo ra năm 1935 với mục đích "tạo một từ dài" và không được sử dụng trong thực hành y khoa.
Giới hạn độ dài định danh trong ngôn ngữ lập trình
| Ngôn ngữ | Độ dài định danh tối đa | Khuyến nghị thực tế | Ghi chú |
|---|---|---|---|
| C (C99) | 63 ký tự (có hiệu lực) | 20-30 ký tự | Vượt 63 không gây lỗi cú pháp |
| Java | 65.535 ký tự | 20-40 ký tự | Ràng buộc tệp class |
| Python | Không giới hạn | 20-30 ký tự | PEP 8 khuyến nghị ngắn gọn |
| JavaScript | Không giới hạn | 15-30 ký tự | Được rút ngắn khi minify |
| SQL (chuẩn) | 128 ký tự | Dưới 30 ký tự | Khác nhau theo RDBMS |
| COBOL | 30 ký tự | 30 ký tự | Ràng buộc lịch sử |
Giới hạn 30 ký tự của COBOL có từ thiết kế năm 1959. Máy tính thời đó có bộ nhớ cực kỳ hạn chế. Ngôn ngữ hiện đại hầu như không có giới hạn, nhưng độ dài khuyến nghị cho tên biến và hàm là 20-30 ký tự, phản ánh giới hạn khả năng đọc của con người.
Mật độ thông tin mỗi ký tự - Khoảng cách khổng lồ giữa các ngôn ngữ
| Ngôn ngữ | Hệ thống chữ viết | Thông tin TB/ký tự (bit) | Thông tin trong 100 ký tự | Đặc điểm |
|---|---|---|---|---|
| Tiếng Anh | Bảng chữ cái (26) | ~4,7 bit | ~470 bit | Khoảng trắng tiêu tốn số ký tự |
| Tiếng Nhật (hỗn hợp) | Hán tự + Hiragana + Katakana | ~9,5 bit | ~950 bit | Mật độ thông tin Hán tự cao |
| Tiếng Trung | Chữ Hán (hàng nghìn) | ~11,2 bit | ~1.120 bit | Mật độ thông tin cao nhất |
| Tiếng Hàn | Hangul (11.172 âm tiết) | ~8,3 bit | ~830 bit | Chữ âm tiết hiệu quả |
| Tiếng Ả Rập | Abjad (28 ký tự) | ~5,8 bit | ~580 bit | Nén bằng cách lược bỏ nguyên âm |
Một ký tự tiếng Trung mang lượng thông tin gấp khoảng 2,4 lần một ký tự tiếng Anh. Điều này vì bộ ký tự tiếng Trung có hàng nghìn loại so với 26 chữ cái tiếng Anh. Càng nhiều loại ký tự, càng nhiều nghĩa phân biệt được trong mỗi ký tự.
Giới hạn ký tự và sự công bằng ngôn ngữ
Khi X (Twitter) mở rộng giới hạn tiếng Anh lên 280 ký tự năm 2017 trong khi giữ tiếng Nhật, Trung, Hàn ở 140, đó là quyết định tính đến khoảng cách mật độ thông tin này. Tiếng Anh 280 ký tự và tiếng Nhật 140 ký tự truyền tải lượng thông tin tương đương.
Sự khác biệt giữa các ngôn ngữ cũng quan trọng khi thiết kế độ dài VARCHAR cơ sở dữ liệu. Trường đủ 100 ký tự cho tiếng Anh có thể lưu thông tin tương đương trong 50 ký tự tiếng Nhật.
Số ký tự cực đoan dạy chúng ta điều gì
Đặt từ ngắn nhất và dài nhất thế giới cạnh nhau, sự khác biệt cơ bản trong thiết kế ngôn ngữ hiện ra. Chữ Hán tiếng Trung và Nhật tiến hóa theo hướng "nén ý nghĩa vào một ký tự", trong khi tiếng Đức và Phần Lan tiến hóa theo hướng "nối từ để biểu đạt khái niệm mới".
Hiểu cơ bản Unicode sẽ thấy định nghĩa "1 ký tự" bản thân nó đã phức tạp về mặt kỹ thuật. Đằng sau công việc tưởng chừng đơn giản là đếm ký tự, ẩn chứa thế giới sâu sắc của ngôn ngữ và công nghệ.
Những ai quan tâm đến ngôn ngữ học và lịch sử chữ viết có thể tìm sách liên quan trên Amazon.
Thử với công cụ đếm ký tự
Đo các từ được giới thiệu trong bài viết này bằng công cụ đếm ký tự thực tế sẽ mang lại những phát hiện thú vị. Từ ghép 80 ký tự tiếng Đức là bao nhiêu byte trong UTF-8? Tên địa danh 85 ký tự New Zealand mở rộng thành bao nhiêu ký tự khi mã hóa URL? Hãy tự tay trải nghiệm cách định nghĩa "1 ký tự" thay đổi theo ngữ cảnh.