Thuật ngữ/h1>
Đo lường văn bản
Đếm ký tự
Tổng số ký tự trong văn bản, bao gồm hoặc không bao gồm khoảng trắng tùy thuộc vào ngữ cảnh.
Đếm byte
Kích thước dữ liệu văn bản tính bằng byte sau mã hóa. Cùng một ký tự có thể có kích thước byte khác nhau tùy thuộc vào mã hóa.
Đếm từ
Số từ trong văn bản. Trong tiếng Anh, các từ thường được phân tách bằng khoảng trắng.
Thời gian đọc
Thời gian ước tính cần thiết để đọc văn bản, được tính từ số từ hoặc số ký tự.
Đếm đoạn văn
Số đoạn văn trong văn bản. Được sử dụng làm thước đo cấu trúc văn bản và khả năng đọc.
Đếm câu
Số câu trong văn bản. Được đếm bằng dấu câu kết thúc câu như dấu chấm, dấu hỏi và dấu chấm than.
Điểm khả năng đọc
Thước đo số lượng hóa khả năng đọc văn bản. Flesch Reading Ease và Flesch-Kincaid Grade Level là các ví dụ tiêu biểu.
Mã hóa ký tự
Unicode
Tiêu chuẩn mã hóa ký tự phổ quát bao gồm hơn 140.000 ký tự từ tất cả hệ thống chữ viết trên toàn thế giới.
UTF-8
Mã hóa Unicode có độ dài thay đổi. Mã hóa ký tự chủ đạo trên web, được sử dụng bởi hơn 98% trang web.
Shift_JIS
Mã hóa ký tự tiếng Nhật được sử dụng rộng rãi trong hệ thống cũ. Đang dần được thay thế bởi UTF-8.
ASCII
Tiêu chuẩn mã hóa ký tự 7-bit biểu diễn 128 ký tự bao gồm chữ cái tiếng Anh, chữ số và ký hiệu cơ bản.
UTF-16
Mã hóa Unicode sử dụng đơn vị mã 16-bit. Được sử dụng nội bộ bởi JavaScript, Java và Windows.
EUC-JP
Mã hóa ký tự tiếng Nhật được sử dụng rộng rãi trên hệ thống UNIX. Thuộc họ Extended Unix Code.
ISO-2022-JP
Mã hóa ký tự tiếng Nhật được thiết kế cho email. Sử dụng chuỗi thoát để chuyển đổi giữa các bộ ký tự.
BOM (Byte Order Mark)
Chuỗi byte ở đầu tệp xác định mã hóa. EF BB BF cho UTF-8, FF FE hoặc FE FF cho UTF-16.
Code Point
Số duy nhất được gán cho mỗi ký tự trong Unicode. Viết dưới dạng U+ theo sau bởi chữ số thập lục phân, ví dụ: U+0041 (A).
Surrogate Pair
Cơ chế trong UTF-16 để biểu diễn ký tự ngoài BMP sử dụng hai đơn vị mã 16-bit.
Combining Character
Ký tự Unicode kết hợp với ký tự cơ sở trước đó để hiển thị. Bao gồm dấu phụ và dakuten.
Thứ tự byte
Thứ tự byte của dữ liệu đa byte. Có hai loại: big-endian và little-endian.
Bộ ký tự
Tập hợp ký tự được định nghĩa và hệ thống đánh số. ASCII, ISO 8859 và Unicode là các ví dụ tiêu biểu.
Loại ký tự
Full-Width Character
Ký tự chiếm gấp đôi chiều rộng của ký tự nửa rộng trong phông chữ có chiều rộng cố định. Phổ biến trong văn bản CJK.
Half-Width Character
Ký tự chiếm một nửa chiều rộng của ký tự toàn rộng trong phông chữ có chiều rộng cố định. Các ký tự ASCII là nửa rộng.
Hiragana
Một trong các hệ thống chữ viết ngữ âm tiếng Nhật. Dùng cho từ gốc Nhật, trợ từ và đuôi động từ.
Katakana
Một trong các hệ thống chữ viết ngữ âm tiếng Nhật. Dùng cho từ mượn, từ tượng thanh và thuật ngữ khoa học.
Kanji
Chữ tượng hình có nguồn gốc từ Trung Quốc. Nhật Bản sử dụng 2.136 chữ kanji thường dụng (jōyō kanji) trong giao tiếp hàng ngày.
Grapheme Cluster
Đơn vị trực quan nhỏ nhất mà con người nhận thức là một ký tự đơn. Có thể bao gồm nhiều code point.
Emoji
Ký hiệu hình ảnh được mã hóa trong Unicode. Dùng để biểu đạt trực quan cảm xúc và khái niệm trong giao tiếp văn bản.
Romaji
Phiên âm La-tinh của tiếng Nhật sử dụng ký tự bảng chữ cái Latin. Hepburn và Kunrei-shiki là các hệ thống chính.
Khoảng trắng không chiều rộng
Ký tự vô hình có chiều rộng hiển thị bằng không (U+200B). Dùng làm gợi ý ngắt dòng và kiểm soát xử lý văn bản.
Dấu phụ
Ký hiệu phụ trợ được thêm phía trên hoặc phía dưới ký tự. Chỉ ra sự khác biệt phát âm như dấu trọng âm và umlaut.
Ideograph
Hệ thống chữ viết trong đó bản thân ký tự mang ý nghĩa. Chữ Hán (kanji) là ví dụ tiêu biểu, được mã hóa dưới dạng CJK Unified Ideographs trong Unicode.
Xử lý văn bản
Token
Đơn vị nhỏ nhất của xử lý văn bản. LLM sử dụng sơ đồ tokenization riêng khác với ký tự hoặc từ.
Cắt ngắn
Quá trình cắt văn bản theo độ dài chỉ định. Dùng để vừa vùng hiển thị hoặc giới hạn cột cơ sở dữ liệu.
Line Break
Quá trình ngắt văn bản xuống dòng tiếp theo. Được kiểm soát trong CSS bằng thuộc tính word-break và overflow-wrap.
Mã xuống dòng
Ký tự điều khiển biểu diễn ngắt dòng. Có ba loại: LF (Unix), CR (Mac cũ) và CRLF (Windows).
Unicode Normalization
Quá trình thống nhất các biểu diễn khác nhau của cùng một ký tự. Có bốn dạng: NFC, NFD, NFKC và NFKD.
Trim
Quá trình loại bỏ khoảng trắng ở đầu và cuối chuỗi. Được cung cấp như phương thức tiêu chuẩn trong hầu hết ngôn ngữ lập trình.
Escape Sequence
Chuỗi dùng để biểu diễn ký tự đặc biệt. Dấu gạch chéo ngược theo sau bởi ký tự biểu diễn xuống dòng, tab và ký tự điều khiển khác.
String Concatenation
Quá trình nối nhiều chuỗi thành một. Đạt được bằng toán tử +, template literal hoặc phương thức chuyên dụng.
Substring
Quá trình trích xuất một phần của chuỗi. Đạt được bằng các phương thức như slice, substring hoặc substr.
String Interpolation
Nhúng giá trị biến hoặc biểu thức trong chuỗi sử dụng template literal hoặc cú pháp tương tự.
Padding
Điền chuỗi bằng ký tự cụ thể để đạt độ dài mong muốn. Triển khai với phương thức padStart và padEnd.
Base64
Sơ đồ mã hóa chuyển đổi dữ liệu nhị phân thành chuỗi ASCII sử dụng 64 ký tự: A-Z, a-z, 0-9, + và /.
Mã hóa phần trăm
Sơ đồ mã hóa biểu diễn ký tự đặc biệt trong URL sử dụng định dạng thập lục phân %XX. Còn gọi là mã hóa URL.
Diff
Quá trình phát hiện và hiển thị sự khác biệt giữa hai văn bản. Công nghệ nền tảng cho quản lý phiên bản và đánh giá mã.
Nén văn bản
Công nghệ giảm kích thước dữ liệu văn bản. Các thuật toán như gzip, Brotli và deflate được sử dụng phổ biến.
Levenshtein Distance
Khoảng cách chỉnh sửa giữa hai chuỗi. Số lần chèn, xóa và thay thế tối thiểu cần thiết để biến đổi chuỗi này thành chuỗi khác.
Fuzzy Matching
Kỹ thuật tìm kiếm tìm các chuỗi tương tự thay vì khớp chính xác. Xử lý lỗi chính tả và biến thể cách viết.
Giới hạn nền tảng
Character Limit
Số ký tự tối đa cho phép nhập văn bản trên nền tảng hoặc hệ thống. Áp dụng trong mạng xã hội, quảng cáo và biểu mẫu.
Meta Description
Thẻ meta description HTML. Tóm tắt trang hiển thị trong kết quả tìm kiếm, thường 150-160 ký tự.
Thẻ tiêu đề
Phần tử title HTML. Hiển thị trong kết quả tìm kiếm và tab trình duyệt, khuyến nghị 50-60 ký tự.
Alt Text (alt attribute)
Văn bản thay thế cho hình ảnh. Quan trọng cho khả năng truy cập và SEO, hiển thị khi hình ảnh không thể tải.
Slug (URL Slug)
Định danh dễ đọc được sử dụng trong phần đường dẫn URL. Ảnh hưởng đến SEO và khả năng sử dụng.
Open Graph
Giao thức thẻ meta kiểm soát cách liên kết xuất hiện khi chia sẻ trên mạng xã hội. Được tạo bởi Facebook.
X (Twitter) Character Limit
Bài đăng X (trước đây là Twitter) giới hạn 280 ký tự. Ký tự CJK đếm là 2 ký tự mỗi ký tự.
Instagram Caption Limit
Chú thích Instagram cho phép tối đa 2.200 ký tự. Có thể sử dụng tối đa 30 hashtag mỗi bài đăng.
SMS Character Limit
Tin nhắn SMS giới hạn 160 ký tự (GSM 7-bit) hoặc 70 ký tự (Unicode/UCS-2). Tin nhắn dài hơn bị chia nhỏ.
Quốc tế hóa
Locale
Sự kết hợp của ngôn ngữ, khu vực và cài đặt định dạng, được xác định bằng mã như ja-JP, en-US.
ICU (International Components for Unicode)
Thư viện quốc tế hóa Unicode cung cấp đối chiếu chuỗi, chuyển đổi, định dạng và xử lý đa ngôn ngữ.
Văn bản hai chiều (BiDi)
Xử lý văn bản trái-sang-phải (LTR) và phải-sang-trái (RTL) hỗn hợp, cần thiết cho tiếng Ả Rập và tiếng Hebrew trong nội dung đa ngôn ngữ.
CJK (Chinese-Japanese-Korean Unified Ideographs)
Hệ thống xử lý ký tự tiếng Trung, tiếng Nhật và tiếng Hàn được thống nhất trong Unicode dưới dạng CJK Unified Ideographs.
Input Method (IME)
Phần mềm cho phép nhập các ký tự không có sẵn trực tiếp trên bàn phím, như ký tự tiếng Nhật và tiếng Trung.
Đối chiếu
Quy tắc so sánh và sắp xếp chuỗi. Định nghĩa thứ tự sắp xếp thay đổi theo ngôn ngữ và văn hóa.
Chuyển tự
Quá trình chuyển đổi văn bản từ hệ thống chữ viết này sang hệ thống khác trong khi bảo tồn ngữ âm.
Biểu thức chính quy
Regular Expression Pattern
Ngôn ngữ mẫu để tìm kiếm và thay thế văn bản. Kết hợp ký tự đặc biệt và ký tự chữ để định nghĩa mẫu chuỗi.
Regex Quantifier
Ký tự meta như *, +, ?, {n,m} chỉ định số lần lặp. Chúng kiểm soát số lần phần tử trước xuất hiện.
Regex Character Class
Cú pháp chỉ định tập ký tự như [a-z], d, w. Định nghĩa phạm vi ký tự để khớp.
Regex Group
Nhóm bắt sử dụng () và tham chiếu ngược. Nhóm phần mẫu để bắt và tái sử dụng chuỗi con đã khớp.
Regex Lookahead
Cú pháp regex sử dụng (?=...) và (?!...) để khớp dựa trên những gì theo sau mà không tiêu thụ ký tự.
Regex Backreference
Tính năng tái sử dụng văn bản đã khớp bởi nhóm bắt trong cùng mẫu. Tham chiếu bằng \1, \2, v.v.
Xử lý ngôn ngữ tự nhiên
Morphological Analysis
Quá trình phân đoạn văn bản thành đơn vị có nghĩa tối thiểu (hình vị) và gán thông tin ngữ pháp.
Tokenization
Quá trình chia văn bản thành token (từ, từ phụ hoặc đơn vị xử lý khác).
Stopword
Các từ xuất hiện thường xuyên bị loại trừ khỏi tìm kiếm và phân tích văn bản, như "a", "the", "is" và "in".
N-gram
Phương pháp chia văn bản thành các chuỗi con liên tiếp gồm N ký tự hoặc từ, dùng trong tìm kiếm và độ tương tự văn bản.
Sentiment Analysis
Quá trình xác định cực tính cảm xúc (tích cực, tiêu cực, trung tính) từ văn bản.
TF-IDF
Term Frequency-Inverse Document Frequency. Phương pháp định lượng tầm quan trọng của từ trong tài liệu.
Named Entity Recognition (NER)
Kỹ thuật NLP tự động xác định và phân loại thực thể có tên như tên người, địa điểm và tổ chức từ văn bản.
Typography
Line Height
Khoảng cách dọc giữa các dòng văn bản. Được kiểm soát bằng thuộc tính CSS line-height, ảnh hưởng đáng kể đến khả năng đọc.
Font Size
Kích thước hiển thị của ký tự văn bản. Được chỉ định trong CSS bằng các đơn vị như px, em, rem và vw.
Whitespace
Ký tự vô hình như khoảng trắng, tab và xuống dòng. Chúng đóng vai trò quan trọng trong xử lý văn bản và bố cục.
Ligature
Kỹ thuật typography kết hợp hai hoặc nhiều ký tự thành một glyph duy nhất. Các ví dụ phổ biến bao gồm fi, fl và ff.
Kerning
Kỹ thuật điều chỉnh khoảng cách giữa các ký tự liền kề để đạt được khoảng cách đều về mặt thị giác dựa trên tổ hợp ký tự.
Định dạng dữ liệu
JSON
JavaScript Object Notation, định dạng trao đổi dữ liệu nhẹ, dễ đọc cho cả con người và máy tính.
CSV
Comma-Separated Values, định dạng văn bản biểu diễn dữ liệu với dấu phẩy phân cách. Được sử dụng rộng rãi để trao đổi dữ liệu bảng.
XML
Extensible Markup Language, ngôn ngữ đánh dấu mô tả cấu trúc dữ liệu sử dụng thẻ.
YAML
YAML Ain't Markup Language, định dạng tuần tự hóa dữ liệu dễ đọc dựa trên thụt lề.
Markdown
Ngôn ngữ đánh dấu nhẹ thêm định dạng cho văn bản thuần bằng cú pháp đơn giản, có thể chuyển đổi sang HTML.
HTML Entity
Tham chiếu ký tự để biểu diễn các ký tự đặc biệt trong HTML. Bắt đầu bằng & và kết thúc bằng ;.
MIME Type
Hệ thống phân loại tiêu chuẩn để xác định loại tệp và dữ liệu. Biểu diễn dưới dạng type/subtype.
Bảo mật
Hash Value
Giá trị có độ dài cố định được tạo từ dữ liệu có độ dài tùy ý bằng hàm băm. Dùng để xác minh tính toàn vẹn dữ liệu và phát hiện giả mạo.
Checksum
Giá trị được tính toán để phát hiện lỗi trong dữ liệu. Dùng để xác minh toàn vẹn dữ liệu trong truyền tải và lưu trữ.
Encryption
Quá trình chuyển đổi dữ liệu thành định dạng không đọc được. Chỉ những người có khóa giải mã mới có thể khôi phục dữ liệu gốc.
Plain Text
Dữ liệu văn bản không mã hóa có thể đọc trực tiếp bởi con người.
Sanitization
Quá trình loại bỏ hoặc vô hiệu hóa mã độc hại và ký tự không hợp lệ từ đầu vào người dùng. Phòng thủ cơ bản chống XSS và SQL injection.
Khả năng truy cập
Screen Reader
Công nghệ hỗ trợ đọc to văn bản và phần tử UI trên màn hình. Hỗ trợ truy cập web cho người khiếm thị.
ARIA Label
Thuộc tính được định nghĩa trong đặc tả WAI-ARIA cung cấp tên có thể truy cập cho phần tử UI. Chỉ định văn bản được đọc bởi trình đọc màn hình.
Contrast Ratio
Tỷ lệ số học của sự khác biệt độ sáng giữa màu nền trước và nền sau. WCAG yêu cầu 4.5:1 hoặc cao hơn cho khả năng đọc văn bản.
Semantic HTML
Sử dụng phần tử HTML truyền đạt rõ ràng ý nghĩa và cấu trúc nội dung. Sử dụng đúng các phần tử như header, nav, main, article và section.
Focus Indicator
Hiển thị trực quan cho biết phần tử nào đang có focus bàn phím. Thường hiển thị dưới dạng đường viền hoặc vùng sáng.
Text-to-Speech (TTS)
Công nghệ chuyển đổi dữ liệu văn bản thành giọng nói. Công nghệ nền tảng cho trình đọc màn hình và trợ lý giọng nói.
Đếm ký tự
Tổng số ký tự trong văn bản, bao gồm hoặc không bao gồm khoảng trắng tùy thuộc vào ngữ cảnh.
Đếm byte
Kích thước dữ liệu văn bản tính bằng byte sau mã hóa. Cùng một ký tự có thể có kích thước byte khác nhau tùy thuộc vào mã hóa.
Đếm từ
Số từ trong văn bản. Trong tiếng Anh, các từ thường được phân tách bằng khoảng trắng.
Thời gian đọc
Thời gian ước tính cần thiết để đọc văn bản, được tính từ số từ hoặc số ký tự.
Đếm đoạn văn
Số đoạn văn trong văn bản. Được sử dụng làm thước đo cấu trúc văn bản và khả năng đọc.
Đếm câu
Số câu trong văn bản. Được đếm bằng dấu câu kết thúc câu như dấu chấm, dấu hỏi và dấu chấm than.
Điểm khả năng đọc
Thước đo số lượng hóa khả năng đọc văn bản. Flesch Reading Ease và Flesch-Kincaid Grade Level là các ví dụ tiêu biểu.
Unicode
Tiêu chuẩn mã hóa ký tự phổ quát bao gồm hơn 140.000 ký tự từ tất cả hệ thống chữ viết trên toàn thế giới.
UTF-8
Mã hóa Unicode có độ dài thay đổi. Mã hóa ký tự chủ đạo trên web, được sử dụng bởi hơn 98% trang web.
Shift_JIS
Mã hóa ký tự tiếng Nhật được sử dụng rộng rãi trong hệ thống cũ. Đang dần được thay thế bởi UTF-8.
ASCII
Tiêu chuẩn mã hóa ký tự 7-bit biểu diễn 128 ký tự bao gồm chữ cái tiếng Anh, chữ số và ký hiệu cơ bản.
UTF-16
Mã hóa Unicode sử dụng đơn vị mã 16-bit. Được sử dụng nội bộ bởi JavaScript, Java và Windows.
EUC-JP
Mã hóa ký tự tiếng Nhật được sử dụng rộng rãi trên hệ thống UNIX. Thuộc họ Extended Unix Code.
ISO-2022-JP
Mã hóa ký tự tiếng Nhật được thiết kế cho email. Sử dụng chuỗi thoát để chuyển đổi giữa các bộ ký tự.
BOM (Byte Order Mark)
Chuỗi byte ở đầu tệp xác định mã hóa. EF BB BF cho UTF-8, FF FE hoặc FE FF cho UTF-16.
Code Point
Số duy nhất được gán cho mỗi ký tự trong Unicode. Viết dưới dạng U+ theo sau bởi chữ số thập lục phân, ví dụ: U+0041 (A).
Surrogate Pair
Cơ chế trong UTF-16 để biểu diễn ký tự ngoài BMP sử dụng hai đơn vị mã 16-bit.
Combining Character
Ký tự Unicode kết hợp với ký tự cơ sở trước đó để hiển thị. Bao gồm dấu phụ và dakuten.
Thứ tự byte
Thứ tự byte của dữ liệu đa byte. Có hai loại: big-endian và little-endian.
Bộ ký tự
Tập hợp ký tự được định nghĩa và hệ thống đánh số. ASCII, ISO 8859 và Unicode là các ví dụ tiêu biểu.
Full-Width Character
Ký tự chiếm gấp đôi chiều rộng của ký tự nửa rộng trong phông chữ có chiều rộng cố định. Phổ biến trong văn bản CJK.
Half-Width Character
Ký tự chiếm một nửa chiều rộng của ký tự toàn rộng trong phông chữ có chiều rộng cố định. Các ký tự ASCII là nửa rộng.
Hiragana
Một trong các hệ thống chữ viết ngữ âm tiếng Nhật. Dùng cho từ gốc Nhật, trợ từ và đuôi động từ.
Katakana
Một trong các hệ thống chữ viết ngữ âm tiếng Nhật. Dùng cho từ mượn, từ tượng thanh và thuật ngữ khoa học.
Kanji
Chữ tượng hình có nguồn gốc từ Trung Quốc. Nhật Bản sử dụng 2.136 chữ kanji thường dụng (jōyō kanji) trong giao tiếp hàng ngày.
Grapheme Cluster
Đơn vị trực quan nhỏ nhất mà con người nhận thức là một ký tự đơn. Có thể bao gồm nhiều code point.
Emoji
Ký hiệu hình ảnh được mã hóa trong Unicode. Dùng để biểu đạt trực quan cảm xúc và khái niệm trong giao tiếp văn bản.
Romaji
Phiên âm La-tinh của tiếng Nhật sử dụng ký tự bảng chữ cái Latin. Hepburn và Kunrei-shiki là các hệ thống chính.
Khoảng trắng không chiều rộng
Ký tự vô hình có chiều rộng hiển thị bằng không (U+200B). Dùng làm gợi ý ngắt dòng và kiểm soát xử lý văn bản.
Dấu phụ
Ký hiệu phụ trợ được thêm phía trên hoặc phía dưới ký tự. Chỉ ra sự khác biệt phát âm như dấu trọng âm và umlaut.
Ideograph
Hệ thống chữ viết trong đó bản thân ký tự mang ý nghĩa. Chữ Hán (kanji) là ví dụ tiêu biểu, được mã hóa dưới dạng CJK Unified Ideographs trong Unicode.
Token
Đơn vị nhỏ nhất của xử lý văn bản. LLM sử dụng sơ đồ tokenization riêng khác với ký tự hoặc từ.
Cắt ngắn
Quá trình cắt văn bản theo độ dài chỉ định. Dùng để vừa vùng hiển thị hoặc giới hạn cột cơ sở dữ liệu.
Line Break
Quá trình ngắt văn bản xuống dòng tiếp theo. Được kiểm soát trong CSS bằng thuộc tính word-break và overflow-wrap.
Mã xuống dòng
Ký tự điều khiển biểu diễn ngắt dòng. Có ba loại: LF (Unix), CR (Mac cũ) và CRLF (Windows).
Unicode Normalization
Quá trình thống nhất các biểu diễn khác nhau của cùng một ký tự. Có bốn dạng: NFC, NFD, NFKC và NFKD.
Trim
Quá trình loại bỏ khoảng trắng ở đầu và cuối chuỗi. Được cung cấp như phương thức tiêu chuẩn trong hầu hết ngôn ngữ lập trình.
Escape Sequence
Chuỗi dùng để biểu diễn ký tự đặc biệt. Dấu gạch chéo ngược theo sau bởi ký tự biểu diễn xuống dòng, tab và ký tự điều khiển khác.
String Concatenation
Quá trình nối nhiều chuỗi thành một. Đạt được bằng toán tử +, template literal hoặc phương thức chuyên dụng.
Substring
Quá trình trích xuất một phần của chuỗi. Đạt được bằng các phương thức như slice, substring hoặc substr.
String Interpolation
Nhúng giá trị biến hoặc biểu thức trong chuỗi sử dụng template literal hoặc cú pháp tương tự.
Padding
Điền chuỗi bằng ký tự cụ thể để đạt độ dài mong muốn. Triển khai với phương thức padStart và padEnd.
Base64
Sơ đồ mã hóa chuyển đổi dữ liệu nhị phân thành chuỗi ASCII sử dụng 64 ký tự: A-Z, a-z, 0-9, + và /.
Mã hóa phần trăm
Sơ đồ mã hóa biểu diễn ký tự đặc biệt trong URL sử dụng định dạng thập lục phân %XX. Còn gọi là mã hóa URL.
Diff
Quá trình phát hiện và hiển thị sự khác biệt giữa hai văn bản. Công nghệ nền tảng cho quản lý phiên bản và đánh giá mã.
Nén văn bản
Công nghệ giảm kích thước dữ liệu văn bản. Các thuật toán như gzip, Brotli và deflate được sử dụng phổ biến.
Levenshtein Distance
Khoảng cách chỉnh sửa giữa hai chuỗi. Số lần chèn, xóa và thay thế tối thiểu cần thiết để biến đổi chuỗi này thành chuỗi khác.
Fuzzy Matching
Kỹ thuật tìm kiếm tìm các chuỗi tương tự thay vì khớp chính xác. Xử lý lỗi chính tả và biến thể cách viết.
Character Limit
Số ký tự tối đa cho phép nhập văn bản trên nền tảng hoặc hệ thống. Áp dụng trong mạng xã hội, quảng cáo và biểu mẫu.
Meta Description
Thẻ meta description HTML. Tóm tắt trang hiển thị trong kết quả tìm kiếm, thường 150-160 ký tự.
Thẻ tiêu đề
Phần tử title HTML. Hiển thị trong kết quả tìm kiếm và tab trình duyệt, khuyến nghị 50-60 ký tự.
Alt Text (alt attribute)
Văn bản thay thế cho hình ảnh. Quan trọng cho khả năng truy cập và SEO, hiển thị khi hình ảnh không thể tải.
Slug (URL Slug)
Định danh dễ đọc được sử dụng trong phần đường dẫn URL. Ảnh hưởng đến SEO và khả năng sử dụng.
Open Graph
Giao thức thẻ meta kiểm soát cách liên kết xuất hiện khi chia sẻ trên mạng xã hội. Được tạo bởi Facebook.
X (Twitter) Character Limit
Bài đăng X (trước đây là Twitter) giới hạn 280 ký tự. Ký tự CJK đếm là 2 ký tự mỗi ký tự.
Instagram Caption Limit
Chú thích Instagram cho phép tối đa 2.200 ký tự. Có thể sử dụng tối đa 30 hashtag mỗi bài đăng.
SMS Character Limit
Tin nhắn SMS giới hạn 160 ký tự (GSM 7-bit) hoặc 70 ký tự (Unicode/UCS-2). Tin nhắn dài hơn bị chia nhỏ.
Locale
Sự kết hợp của ngôn ngữ, khu vực và cài đặt định dạng, được xác định bằng mã như ja-JP, en-US.
ICU (International Components for Unicode)
Thư viện quốc tế hóa Unicode cung cấp đối chiếu chuỗi, chuyển đổi, định dạng và xử lý đa ngôn ngữ.
Văn bản hai chiều (BiDi)
Xử lý văn bản trái-sang-phải (LTR) và phải-sang-trái (RTL) hỗn hợp, cần thiết cho tiếng Ả Rập và tiếng Hebrew trong nội dung đa ngôn ngữ.
CJK (Chinese-Japanese-Korean Unified Ideographs)
Hệ thống xử lý ký tự tiếng Trung, tiếng Nhật và tiếng Hàn được thống nhất trong Unicode dưới dạng CJK Unified Ideographs.
Input Method (IME)
Phần mềm cho phép nhập các ký tự không có sẵn trực tiếp trên bàn phím, như ký tự tiếng Nhật và tiếng Trung.
Đối chiếu
Quy tắc so sánh và sắp xếp chuỗi. Định nghĩa thứ tự sắp xếp thay đổi theo ngôn ngữ và văn hóa.
Chuyển tự
Quá trình chuyển đổi văn bản từ hệ thống chữ viết này sang hệ thống khác trong khi bảo tồn ngữ âm.
Regular Expression Pattern
Ngôn ngữ mẫu để tìm kiếm và thay thế văn bản. Kết hợp ký tự đặc biệt và ký tự chữ để định nghĩa mẫu chuỗi.
Regex Quantifier
Ký tự meta như *, +, ?, {n,m} chỉ định số lần lặp. Chúng kiểm soát số lần phần tử trước xuất hiện.
Regex Character Class
Cú pháp chỉ định tập ký tự như [a-z], d, w. Định nghĩa phạm vi ký tự để khớp.
Regex Group
Nhóm bắt sử dụng () và tham chiếu ngược. Nhóm phần mẫu để bắt và tái sử dụng chuỗi con đã khớp.
Regex Lookahead
Cú pháp regex sử dụng (?=...) và (?!...) để khớp dựa trên những gì theo sau mà không tiêu thụ ký tự.
Regex Backreference
Tính năng tái sử dụng văn bản đã khớp bởi nhóm bắt trong cùng mẫu. Tham chiếu bằng \1, \2, v.v.
Morphological Analysis
Quá trình phân đoạn văn bản thành đơn vị có nghĩa tối thiểu (hình vị) và gán thông tin ngữ pháp.
Tokenization
Quá trình chia văn bản thành token (từ, từ phụ hoặc đơn vị xử lý khác).
Stopword
Các từ xuất hiện thường xuyên bị loại trừ khỏi tìm kiếm và phân tích văn bản, như "a", "the", "is" và "in".
N-gram
Phương pháp chia văn bản thành các chuỗi con liên tiếp gồm N ký tự hoặc từ, dùng trong tìm kiếm và độ tương tự văn bản.
Sentiment Analysis
Quá trình xác định cực tính cảm xúc (tích cực, tiêu cực, trung tính) từ văn bản.
TF-IDF
Term Frequency-Inverse Document Frequency. Phương pháp định lượng tầm quan trọng của từ trong tài liệu.
Named Entity Recognition (NER)
Kỹ thuật NLP tự động xác định và phân loại thực thể có tên như tên người, địa điểm và tổ chức từ văn bản.
Line Height
Khoảng cách dọc giữa các dòng văn bản. Được kiểm soát bằng thuộc tính CSS line-height, ảnh hưởng đáng kể đến khả năng đọc.
Font Size
Kích thước hiển thị của ký tự văn bản. Được chỉ định trong CSS bằng các đơn vị như px, em, rem và vw.
Whitespace
Ký tự vô hình như khoảng trắng, tab và xuống dòng. Chúng đóng vai trò quan trọng trong xử lý văn bản và bố cục.
Ligature
Kỹ thuật typography kết hợp hai hoặc nhiều ký tự thành một glyph duy nhất. Các ví dụ phổ biến bao gồm fi, fl và ff.
Kerning
Kỹ thuật điều chỉnh khoảng cách giữa các ký tự liền kề để đạt được khoảng cách đều về mặt thị giác dựa trên tổ hợp ký tự.
JSON
JavaScript Object Notation, định dạng trao đổi dữ liệu nhẹ, dễ đọc cho cả con người và máy tính.
CSV
Comma-Separated Values, định dạng văn bản biểu diễn dữ liệu với dấu phẩy phân cách. Được sử dụng rộng rãi để trao đổi dữ liệu bảng.
XML
Extensible Markup Language, ngôn ngữ đánh dấu mô tả cấu trúc dữ liệu sử dụng thẻ.
YAML
YAML Ain't Markup Language, định dạng tuần tự hóa dữ liệu dễ đọc dựa trên thụt lề.
Markdown
Ngôn ngữ đánh dấu nhẹ thêm định dạng cho văn bản thuần bằng cú pháp đơn giản, có thể chuyển đổi sang HTML.
HTML Entity
Tham chiếu ký tự để biểu diễn các ký tự đặc biệt trong HTML. Bắt đầu bằng & và kết thúc bằng ;.
MIME Type
Hệ thống phân loại tiêu chuẩn để xác định loại tệp và dữ liệu. Biểu diễn dưới dạng type/subtype.
Hash Value
Giá trị có độ dài cố định được tạo từ dữ liệu có độ dài tùy ý bằng hàm băm. Dùng để xác minh tính toàn vẹn dữ liệu và phát hiện giả mạo.
Checksum
Giá trị được tính toán để phát hiện lỗi trong dữ liệu. Dùng để xác minh toàn vẹn dữ liệu trong truyền tải và lưu trữ.
Encryption
Quá trình chuyển đổi dữ liệu thành định dạng không đọc được. Chỉ những người có khóa giải mã mới có thể khôi phục dữ liệu gốc.
Plain Text
Dữ liệu văn bản không mã hóa có thể đọc trực tiếp bởi con người.
Sanitization
Quá trình loại bỏ hoặc vô hiệu hóa mã độc hại và ký tự không hợp lệ từ đầu vào người dùng. Phòng thủ cơ bản chống XSS và SQL injection.
Screen Reader
Công nghệ hỗ trợ đọc to văn bản và phần tử UI trên màn hình. Hỗ trợ truy cập web cho người khiếm thị.
ARIA Label
Thuộc tính được định nghĩa trong đặc tả WAI-ARIA cung cấp tên có thể truy cập cho phần tử UI. Chỉ định văn bản được đọc bởi trình đọc màn hình.
Contrast Ratio
Tỷ lệ số học của sự khác biệt độ sáng giữa màu nền trước và nền sau. WCAG yêu cầu 4.5:1 hoặc cao hơn cho khả năng đọc văn bản.
Semantic HTML
Sử dụng phần tử HTML truyền đạt rõ ràng ý nghĩa và cấu trúc nội dung. Sử dụng đúng các phần tử như header, nav, main, article và section.
Focus Indicator
Hiển thị trực quan cho biết phần tử nào đang có focus bàn phím. Thường hiển thị dưới dạng đường viền hoặc vùng sáng.
Text-to-Speech (TTS)
Công nghệ chuyển đổi dữ liệu văn bản thành giọng nói. Công nghệ nền tảng cho trình đọc màn hình và trợ lý giọng nói.