Từ ngắn nhất và dài nhất thế giới - Thế giới cực đoan của số ký tự qua các ngôn ngữ

Khoảng 8 phút đọc

Tên hóa học của protein "titin" dài 189.819 ký tự. Chỉ riêng việc đọc to đã mất ba tiếng rưỡi, và nó không xuất hiện trong bất kỳ từ điển tiếng Anh nào. Trong khi đó, có những ngôn ngữ tồn tại từ chỉ gồm 1 ký tự. Nhìn các ngôn ngữ trên thế giới qua lăng kính số ký tự, ta thấy con người đã nén và mở rộng ý nghĩa bằng những cách đa dạng đến kinh ngạc. Bài viết này giới thiệu các từ ngắn nhất và dài nhất trong từng ngôn ngữ với số ký tự cụ thể.

Những từ ngắn nhất thế giới

"Từ có ý nghĩa chỉ với 1 ký tự" tồn tại trong nhiều ngôn ngữ hơn bạn nghĩ. Tiếng Anh có "I" (tôi) và "a" (một) là ví dụ ai cũng biết, nhưng tiếng Nhật còn cực đoan hơn. Các chữ Hán như 目 (mắt), 手 (tay), 歯 (răng), 火 (lửa), 木 (cây) là những từ hoàn chỉnh chỉ với một ký tự.

Tiếng Trung còn đi xa hơn - hầu như mọi chữ Hán đều hoạt động như một từ độc lập có nghĩa hoàn chỉnh. Các ký tự như 人 (người), 大 (lớn), 水 (nước), 山 (núi) gói gọn cả khái niệm trong một ký tự. Thiết kế ngôn ngữ hoàn thành ý nghĩa trong một ký tự là đặc điểm thú vị khi xem xét mối quan hệ giữa ký tự và byte.

Ngôn ngữVí dụ từ ngắn nhấtSố ký tựNghĩaGhi chú
Tiếng AnhI, a1 ký tựtôi / mộtI viết hoa là 1 byte
Tiếng Nhật (Hán tự)目, 手, 火1 ký tựmắt, tay, lửa3 byte trong UTF-8
Tiếng Trung人, 大, 水1 ký tựngười, lớn, nướcGần như mọi chữ Hán đều là từ 1 ký tự
Tiếng Hàn나 (na)1 ký tựtôi1 ký tự Hangul = 3 byte UTF-8
Tiếng Việt1 ký tựsống, ở1 ký tự có dấu thanh

Điểm đáng chú ý là mật độ thông tin của "1 ký tự" khác nhau rất lớn giữa các ngôn ngữ. Tiếng Anh "a" là 1 byte, nhưng tiếng Nhật "目" là 3 byte trong UTF-8. Cùng "1 ký tự" nhưng lượng dữ liệu máy tính xử lý chênh lệch 3 lần. Đây là cùng cấu trúc với cách sự khác biệt toàn chiều rộng và nửa chiều rộng ảnh hưởng đến đếm ký tự.

Từ dài trong ngôn ngữ châu Âu - Văn hóa từ ghép của tiếng Đức

Tiếng Đức được gọi là "vua từ ghép". Danh từ có thể nối vô hạn để tạo từ mới, về lý thuyết có thể tạo ra từ dài vô tận.

TừSố ký tựNghĩaBối cảnh
Donaudampfschifffahrtselektrizitätenhauptbetriebswerkbauunterbeamtengesellschaft80 ký tựHiệp hội quan chức cấp dưới của trụ sở quản lý dịch vụ điện tàu hơi nước sông DanubeKỷ lục Guinness (tiếng Đức)
Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz63 ký tựLuật ủy quyền giám sát ghi nhãn thịt bòTên luật thực tế đến 2003
Kraftfahrzeughaftpflichtversicherung36 ký tựBảo hiểm trách nhiệm xe cơ giớiTừ ghép thường dùng

Năm 2013, bang Mecklenburg-Vorpommern của Đức bãi bỏ tên luật 63 ký tự. Đây là luật về bệnh bò điên trở nên không cần thiết do thay đổi quy định EU. Việc bãi bỏ trở thành tin tức với tiêu đề "từ dài nhất tiếng Đức đã biến mất".

Tên địa danh dài nhất thế giới

Tên địa danhSố ký tựVị tríNgôn ngữ
Taumatawhakatangihangakoauauotamateaturipukakapikimaungahoronukupokaiwhenuakitanatahu85 ký tựNew ZealandTiếng Maori
Llanfairpwllgwyngyllgogerychwyrndrobwllllantysiliogogogoch58 ký tựWales (Anh)Tiếng Wales
กรุงเทพมหานคร... (tên chính thức Bangkok)168 ký tự (chữ Thái)Thái LanTiếng Thái
Chargoggagoggmanchauggagoggchaubunagungamaugg45 ký tựMassachusetts (Mỹ)Gốc Algonquin

Tên ngọn đồi New Zealand có nghĩa "nơi Tamatea, người đàn ông có đầu gối lớn, trượt, leo và nuốt núi, thổi sáo cho người yêu". Văn hóa Maori đặt tên địa danh bằng cách mô tả sự kiện xảy ra tại đó, tạo ra những tên cực dài.

Ngược lại, tên địa danh ngắn nhất thế giới là "Å" (1 ký tự) ở Na Uy và "Ö" (1 ký tự) ở Thụy Điển. Cả hai đều là khu định cư thực tế xuất hiện trên bản đồ. Tên địa danh 1 ký tự có thể gây vấn đề trong thiết kế URL và cơ sở dữ liệu, gây khó khăn cho nhà phát triển theo hướng ngược lại với giới hạn ký tự URL.

Tên hóa chất - Đỉnh cao của số ký tự

Tên chấtSố ký tựLoạiCó trong từ điển
Tên hóa học của titin189.819 ký tựProteinKhông
Methionylthreonylthreonylglutaminylarginyl... (viết tắt)1.185 ký tựTryptophan synthetaseKhông
Pneumonoultramicroscopicsilicovolcanoconiosis45 ký tựMột loại bệnh bụi phổi silicCó (từ điển tiếng Anh)
Supercalifragilisticexpialidocious34 ký tựTừ tạo trong phimMột số từ điển

Từ dài nhất trong từ điển tiếng Anh là "Pneumonoultramicroscopicsilicovolcanoconiosis" (45 ký tự), chỉ bệnh phổi do hít phải hạt tro núi lửa mịn. Tuy nhiên, từ này được tạo ra năm 1935 với mục đích "tạo một từ dài" và không được sử dụng trong thực hành y khoa.

Giới hạn độ dài định danh trong ngôn ngữ lập trình

Ngôn ngữĐộ dài định danh tối đaKhuyến nghị thực tếGhi chú
C (C99)63 ký tự (có hiệu lực)20-30 ký tựVượt 63 không gây lỗi cú pháp
Java65.535 ký tự20-40 ký tựRàng buộc tệp class
PythonKhông giới hạn20-30 ký tựPEP 8 khuyến nghị ngắn gọn
JavaScriptKhông giới hạn15-30 ký tựĐược rút ngắn khi minify
SQL (chuẩn)128 ký tựDưới 30 ký tựKhác nhau theo RDBMS
COBOL30 ký tự30 ký tựRàng buộc lịch sử

Giới hạn 30 ký tự của COBOL có từ thiết kế năm 1959. Máy tính thời đó có bộ nhớ cực kỳ hạn chế. Ngôn ngữ hiện đại hầu như không có giới hạn, nhưng độ dài khuyến nghị cho tên biến và hàm là 20-30 ký tự, phản ánh giới hạn khả năng đọc của con người.

Mật độ thông tin mỗi ký tự - Khoảng cách khổng lồ giữa các ngôn ngữ

Ngôn ngữHệ thống chữ viếtThông tin TB/ký tự (bit)Thông tin trong 100 ký tựĐặc điểm
Tiếng AnhBảng chữ cái (26)~4,7 bit~470 bitKhoảng trắng tiêu tốn số ký tự
Tiếng Nhật (hỗn hợp)Hán tự + Hiragana + Katakana~9,5 bit~950 bitMật độ thông tin Hán tự cao
Tiếng TrungChữ Hán (hàng nghìn)~11,2 bit~1.120 bitMật độ thông tin cao nhất
Tiếng HànHangul (11.172 âm tiết)~8,3 bit~830 bitChữ âm tiết hiệu quả
Tiếng Ả RậpAbjad (28 ký tự)~5,8 bit~580 bitNén bằng cách lược bỏ nguyên âm

Một ký tự tiếng Trung mang lượng thông tin gấp khoảng 2,4 lần một ký tự tiếng Anh. Điều này vì bộ ký tự tiếng Trung có hàng nghìn loại so với 26 chữ cái tiếng Anh. Càng nhiều loại ký tự, càng nhiều nghĩa phân biệt được trong mỗi ký tự.

Giới hạn ký tự và sự công bằng ngôn ngữ

Khi X (Twitter) mở rộng giới hạn tiếng Anh lên 280 ký tự năm 2017 trong khi giữ tiếng Nhật, Trung, Hàn ở 140, đó là quyết định tính đến khoảng cách mật độ thông tin này. Tiếng Anh 280 ký tự và tiếng Nhật 140 ký tự truyền tải lượng thông tin tương đương.

Sự khác biệt giữa các ngôn ngữ cũng quan trọng khi thiết kế độ dài VARCHAR cơ sở dữ liệu. Trường đủ 100 ký tự cho tiếng Anh có thể lưu thông tin tương đương trong 50 ký tự tiếng Nhật.

Số ký tự cực đoan dạy chúng ta điều gì

Đặt từ ngắn nhất và dài nhất thế giới cạnh nhau, sự khác biệt cơ bản trong thiết kế ngôn ngữ hiện ra. Chữ Hán tiếng Trung và Nhật tiến hóa theo hướng "nén ý nghĩa vào một ký tự", trong khi tiếng Đức và Phần Lan tiến hóa theo hướng "nối từ để biểu đạt khái niệm mới".

Hiểu cơ bản Unicode sẽ thấy định nghĩa "1 ký tự" bản thân nó đã phức tạp về mặt kỹ thuật. Đằng sau công việc tưởng chừng đơn giản là đếm ký tự, ẩn chứa thế giới sâu sắc của ngôn ngữ và công nghệ.

Những ai quan tâm đến ngôn ngữ học và lịch sử chữ viết có thể tìm sách liên quan trên Amazon.

Thử với công cụ đếm ký tự

Đo các từ được giới thiệu trong bài viết này bằng công cụ đếm ký tự thực tế sẽ mang lại những phát hiện thú vị. Từ ghép 80 ký tự tiếng Đức là bao nhiêu byte trong UTF-8? Tên địa danh 85 ký tự New Zealand mở rộng thành bao nhiêu ký tự khi mã hóa URL? Hãy tự tay trải nghiệm cách định nghĩa "1 ký tự" thay đổi theo ngữ cảnh.

Chia sẻ bài viết này