Thuật ngữ/h1>

Đo lường văn bản

Mã hóa ký tự

Unicode

Tiêu chuẩn mã hóa ký tự phổ quát bao gồm hơn 140.000 ký tự từ tất cả hệ thống chữ viết trên toàn thế giới.

UTF-8

Mã hóa Unicode có độ dài thay đổi. Mã hóa ký tự chủ đạo trên web, được sử dụng bởi hơn 98% trang web.

Shift_JIS

Mã hóa ký tự tiếng Nhật được sử dụng rộng rãi trong hệ thống cũ. Đang dần được thay thế bởi UTF-8.

ASCII

Tiêu chuẩn mã hóa ký tự 7-bit biểu diễn 128 ký tự bao gồm chữ cái tiếng Anh, chữ số và ký hiệu cơ bản.

UTF-16

Mã hóa Unicode sử dụng đơn vị mã 16-bit. Được sử dụng nội bộ bởi JavaScript, Java và Windows.

EUC-JP

Mã hóa ký tự tiếng Nhật được sử dụng rộng rãi trên hệ thống UNIX. Thuộc họ Extended Unix Code.

ISO-2022-JP

Mã hóa ký tự tiếng Nhật được thiết kế cho email. Sử dụng chuỗi thoát để chuyển đổi giữa các bộ ký tự.

BOM (Byte Order Mark)

Chuỗi byte ở đầu tệp xác định mã hóa. EF BB BF cho UTF-8, FF FE hoặc FE FF cho UTF-16.

Code Point

Số duy nhất được gán cho mỗi ký tự trong Unicode. Viết dưới dạng U+ theo sau bởi chữ số thập lục phân, ví dụ: U+0041 (A).

Surrogate Pair

Cơ chế trong UTF-16 để biểu diễn ký tự ngoài BMP sử dụng hai đơn vị mã 16-bit.

Combining Character

Ký tự Unicode kết hợp với ký tự cơ sở trước đó để hiển thị. Bao gồm dấu phụ và dakuten.

Thứ tự byte

Thứ tự byte của dữ liệu đa byte. Có hai loại: big-endian và little-endian.

Bộ ký tự

Tập hợp ký tự được định nghĩa và hệ thống đánh số. ASCII, ISO 8859 và Unicode là các ví dụ tiêu biểu.

Loại ký tự

Full-Width Character

Ký tự chiếm gấp đôi chiều rộng của ký tự nửa rộng trong phông chữ có chiều rộng cố định. Phổ biến trong văn bản CJK.

Half-Width Character

Ký tự chiếm một nửa chiều rộng của ký tự toàn rộng trong phông chữ có chiều rộng cố định. Các ký tự ASCII là nửa rộng.

Hiragana

Một trong các hệ thống chữ viết ngữ âm tiếng Nhật. Dùng cho từ gốc Nhật, trợ từ và đuôi động từ.

Katakana

Một trong các hệ thống chữ viết ngữ âm tiếng Nhật. Dùng cho từ mượn, từ tượng thanh và thuật ngữ khoa học.

Kanji

Chữ tượng hình có nguồn gốc từ Trung Quốc. Nhật Bản sử dụng 2.136 chữ kanji thường dụng (jōyō kanji) trong giao tiếp hàng ngày.

Grapheme Cluster

Đơn vị trực quan nhỏ nhất mà con người nhận thức là một ký tự đơn. Có thể bao gồm nhiều code point.

Emoji

Ký hiệu hình ảnh được mã hóa trong Unicode. Dùng để biểu đạt trực quan cảm xúc và khái niệm trong giao tiếp văn bản.

Romaji

Phiên âm La-tinh của tiếng Nhật sử dụng ký tự bảng chữ cái Latin. Hepburn và Kunrei-shiki là các hệ thống chính.

Khoảng trắng không chiều rộng

Ký tự vô hình có chiều rộng hiển thị bằng không (U+200B). Dùng làm gợi ý ngắt dòng và kiểm soát xử lý văn bản.

Dấu phụ

Ký hiệu phụ trợ được thêm phía trên hoặc phía dưới ký tự. Chỉ ra sự khác biệt phát âm như dấu trọng âm và umlaut.

Ideograph

Hệ thống chữ viết trong đó bản thân ký tự mang ý nghĩa. Chữ Hán (kanji) là ví dụ tiêu biểu, được mã hóa dưới dạng CJK Unified Ideographs trong Unicode.

Xử lý văn bản

Token

Đơn vị nhỏ nhất của xử lý văn bản. LLM sử dụng sơ đồ tokenization riêng khác với ký tự hoặc từ.

Cắt ngắn

Quá trình cắt văn bản theo độ dài chỉ định. Dùng để vừa vùng hiển thị hoặc giới hạn cột cơ sở dữ liệu.

Line Break

Quá trình ngắt văn bản xuống dòng tiếp theo. Được kiểm soát trong CSS bằng thuộc tính word-break và overflow-wrap.

Mã xuống dòng

Ký tự điều khiển biểu diễn ngắt dòng. Có ba loại: LF (Unix), CR (Mac cũ) và CRLF (Windows).

Unicode Normalization

Quá trình thống nhất các biểu diễn khác nhau của cùng một ký tự. Có bốn dạng: NFC, NFD, NFKC và NFKD.

Trim

Quá trình loại bỏ khoảng trắng ở đầu và cuối chuỗi. Được cung cấp như phương thức tiêu chuẩn trong hầu hết ngôn ngữ lập trình.

Escape Sequence

Chuỗi dùng để biểu diễn ký tự đặc biệt. Dấu gạch chéo ngược theo sau bởi ký tự biểu diễn xuống dòng, tab và ký tự điều khiển khác.

String Concatenation

Quá trình nối nhiều chuỗi thành một. Đạt được bằng toán tử +, template literal hoặc phương thức chuyên dụng.

Substring

Quá trình trích xuất một phần của chuỗi. Đạt được bằng các phương thức như slice, substring hoặc substr.

String Interpolation

Nhúng giá trị biến hoặc biểu thức trong chuỗi sử dụng template literal hoặc cú pháp tương tự.

Padding

Điền chuỗi bằng ký tự cụ thể để đạt độ dài mong muốn. Triển khai với phương thức padStart và padEnd.

Base64

Sơ đồ mã hóa chuyển đổi dữ liệu nhị phân thành chuỗi ASCII sử dụng 64 ký tự: A-Z, a-z, 0-9, + và /.

Mã hóa phần trăm

Sơ đồ mã hóa biểu diễn ký tự đặc biệt trong URL sử dụng định dạng thập lục phân %XX. Còn gọi là mã hóa URL.

Diff

Quá trình phát hiện và hiển thị sự khác biệt giữa hai văn bản. Công nghệ nền tảng cho quản lý phiên bản và đánh giá mã.

Nén văn bản

Công nghệ giảm kích thước dữ liệu văn bản. Các thuật toán như gzip, Brotli và deflate được sử dụng phổ biến.

Levenshtein Distance

Khoảng cách chỉnh sửa giữa hai chuỗi. Số lần chèn, xóa và thay thế tối thiểu cần thiết để biến đổi chuỗi này thành chuỗi khác.

Fuzzy Matching

Kỹ thuật tìm kiếm tìm các chuỗi tương tự thay vì khớp chính xác. Xử lý lỗi chính tả và biến thể cách viết.

Giới hạn nền tảng

Quốc tế hóa

Biểu thức chính quy

Xử lý ngôn ngữ tự nhiên

Typography

Định dạng dữ liệu

Bảo mật

Khả năng truy cập