Thuật ngữ - Bộ đếm ký tự

Đếm ký tự

Tổng số ký tự trong văn bản, bao gồm hoặc không bao gồm khoảng trắng tùy thuộc vào ngữ cảnh.

Đếm byte

Kích thước dữ liệu văn bản tính bằng byte sau mã hóa. Cùng một ký tự có thể có kích thước byte khác nhau tùy thuộc vào mã hóa.

Đếm từ

Số từ trong văn bản. Trong tiếng Anh, các từ thường được phân tách bằng khoảng trắng.

Thời gian đọc

Thời gian ước tính cần thiết để đọc văn bản, được tính từ số từ hoặc số ký tự.

Đếm đoạn văn

Số đoạn văn trong văn bản. Được sử dụng làm thước đo cấu trúc văn bản và khả năng đọc.

Đếm câu

Số câu trong văn bản. Được đếm bằng dấu câu kết thúc câu như dấu chấm, dấu hỏi và dấu chấm than.

Điểm khả năng đọc

Thước đo số lượng hóa khả năng đọc văn bản. Flesch Reading Ease và Flesch-Kincaid Grade Level là các ví dụ tiêu biểu.

Unicode

Tiêu chuẩn mã hóa ký tự phổ quát bao gồm hơn 140.000 ký tự từ tất cả hệ thống chữ viết trên toàn thế giới.

UTF-8

Mã hóa Unicode có độ dài thay đổi. Mã hóa ký tự chủ đạo trên web, được sử dụng bởi hơn 98% trang web.

Shift_JIS

Mã hóa ký tự tiếng Nhật được sử dụng rộng rãi trong hệ thống cũ. Đang dần được thay thế bởi UTF-8.

ASCII

Tiêu chuẩn mã hóa ký tự 7-bit biểu diễn 128 ký tự bao gồm chữ cái tiếng Anh, chữ số và ký hiệu cơ bản.

UTF-16

Mã hóa Unicode sử dụng đơn vị mã 16-bit. Được sử dụng nội bộ bởi JavaScript, Java và Windows.

EUC-JP

Mã hóa ký tự tiếng Nhật được sử dụng rộng rãi trên hệ thống UNIX. Thuộc họ Extended Unix Code.

ISO-2022-JP

Mã hóa ký tự tiếng Nhật được thiết kế cho email. Sử dụng chuỗi thoát để chuyển đổi giữa các bộ ký tự.

BOM (Byte Order Mark)

Chuỗi byte ở đầu tệp xác định mã hóa. EF BB BF cho UTF-8, FF FE hoặc FE FF cho UTF-16.

Code Point

Số duy nhất được gán cho mỗi ký tự trong Unicode. Viết dưới dạng U+ theo sau bởi chữ số thập lục phân, ví dụ: U+0041 (A).

Surrogate Pair

Cơ chế trong UTF-16 để biểu diễn ký tự ngoài BMP sử dụng hai đơn vị mã 16-bit.

Combining Character

Ký tự Unicode kết hợp với ký tự cơ sở trước đó để hiển thị. Bao gồm dấu phụ và dakuten.

Thứ tự byte

Thứ tự byte của dữ liệu đa byte. Có hai loại: big-endian và little-endian.

Bộ ký tự

Tập hợp ký tự được định nghĩa và hệ thống đánh số. ASCII, ISO 8859 và Unicode là các ví dụ tiêu biểu.

Full-Width Character

Ký tự chiếm gấp đôi chiều rộng của ký tự nửa rộng trong phông chữ có chiều rộng cố định. Phổ biến trong văn bản CJK.

Half-Width Character

Ký tự chiếm một nửa chiều rộng của ký tự toàn rộng trong phông chữ có chiều rộng cố định. Các ký tự ASCII là nửa rộng.

Hiragana

Một trong các hệ thống chữ viết ngữ âm tiếng Nhật. Dùng cho từ gốc Nhật, trợ từ và đuôi động từ.

Katakana

Một trong các hệ thống chữ viết ngữ âm tiếng Nhật. Dùng cho từ mượn, từ tượng thanh và thuật ngữ khoa học.

Kanji

Chữ tượng hình có nguồn gốc từ Trung Quốc. Nhật Bản sử dụng 2.136 chữ kanji thường dụng (jōyō kanji) trong giao tiếp hàng ngày.

Grapheme Cluster

Đơn vị trực quan nhỏ nhất mà con người nhận thức là một ký tự đơn. Có thể bao gồm nhiều code point.

Emoji

Ký hiệu hình ảnh được mã hóa trong Unicode. Dùng để biểu đạt trực quan cảm xúc và khái niệm trong giao tiếp văn bản.

Romaji

Phiên âm La-tinh của tiếng Nhật sử dụng ký tự bảng chữ cái Latin. Hepburn và Kunrei-shiki là các hệ thống chính.

Khoảng trắng không chiều rộng

Ký tự vô hình có chiều rộng hiển thị bằng không (U+200B). Dùng làm gợi ý ngắt dòng và kiểm soát xử lý văn bản.

Dấu phụ

Ký hiệu phụ trợ được thêm phía trên hoặc phía dưới ký tự. Chỉ ra sự khác biệt phát âm như dấu trọng âm và umlaut.

Ideograph

Hệ thống chữ viết trong đó bản thân ký tự mang ý nghĩa. Chữ Hán (kanji) là ví dụ tiêu biểu, được mã hóa dưới dạng CJK Unified Ideographs trong Unicode.

Token

Đơn vị nhỏ nhất của xử lý văn bản. LLM sử dụng sơ đồ tokenization riêng khác với ký tự hoặc từ.

Cắt ngắn

Quá trình cắt văn bản theo độ dài chỉ định. Dùng để vừa vùng hiển thị hoặc giới hạn cột cơ sở dữ liệu.

Line Break

Quá trình ngắt văn bản xuống dòng tiếp theo. Được kiểm soát trong CSS bằng thuộc tính word-break và overflow-wrap.

Mã xuống dòng

Ký tự điều khiển biểu diễn ngắt dòng. Có ba loại: LF (Unix), CR (Mac cũ) và CRLF (Windows).

Unicode Normalization

Quá trình thống nhất các biểu diễn khác nhau của cùng một ký tự. Có bốn dạng: NFC, NFD, NFKC và NFKD.

Trim

Quá trình loại bỏ khoảng trắng ở đầu và cuối chuỗi. Được cung cấp như phương thức tiêu chuẩn trong hầu hết ngôn ngữ lập trình.

Escape Sequence

Chuỗi dùng để biểu diễn ký tự đặc biệt. Dấu gạch chéo ngược theo sau bởi ký tự biểu diễn xuống dòng, tab và ký tự điều khiển khác.

String Concatenation

Quá trình nối nhiều chuỗi thành một. Đạt được bằng toán tử +, template literal hoặc phương thức chuyên dụng.

Substring

Quá trình trích xuất một phần của chuỗi. Đạt được bằng các phương thức như slice, substring hoặc substr.

String Interpolation

Nhúng giá trị biến hoặc biểu thức trong chuỗi sử dụng template literal hoặc cú pháp tương tự.

Padding

Điền chuỗi bằng ký tự cụ thể để đạt độ dài mong muốn. Triển khai với phương thức padStart và padEnd.

Base64

Sơ đồ mã hóa chuyển đổi dữ liệu nhị phân thành chuỗi ASCII sử dụng 64 ký tự: A-Z, a-z, 0-9, + và /.

Mã hóa phần trăm

Sơ đồ mã hóa biểu diễn ký tự đặc biệt trong URL sử dụng định dạng thập lục phân %XX. Còn gọi là mã hóa URL.

Diff

Quá trình phát hiện và hiển thị sự khác biệt giữa hai văn bản. Công nghệ nền tảng cho quản lý phiên bản và đánh giá mã.

Nén văn bản

Công nghệ giảm kích thước dữ liệu văn bản. Các thuật toán như gzip, Brotli và deflate được sử dụng phổ biến.

Levenshtein Distance

Khoảng cách chỉnh sửa giữa hai chuỗi. Số lần chèn, xóa và thay thế tối thiểu cần thiết để biến đổi chuỗi này thành chuỗi khác.

Fuzzy Matching

Kỹ thuật tìm kiếm tìm các chuỗi tương tự thay vì khớp chính xác. Xử lý lỗi chính tả và biến thể cách viết.

Character Limit

Số ký tự tối đa cho phép nhập văn bản trên nền tảng hoặc hệ thống. Áp dụng trong mạng xã hội, quảng cáo và biểu mẫu.

Meta Description

Thẻ meta description HTML. Tóm tắt trang hiển thị trong kết quả tìm kiếm, thường 150-160 ký tự.

Thẻ tiêu đề

Phần tử title HTML. Hiển thị trong kết quả tìm kiếm và tab trình duyệt, khuyến nghị 50-60 ký tự.

Alt Text (alt attribute)

Văn bản thay thế cho hình ảnh. Quan trọng cho khả năng truy cập và SEO, hiển thị khi hình ảnh không thể tải.

Slug (URL Slug)

Định danh dễ đọc được sử dụng trong phần đường dẫn URL. Ảnh hưởng đến SEO và khả năng sử dụng.

Open Graph

Giao thức thẻ meta kiểm soát cách liên kết xuất hiện khi chia sẻ trên mạng xã hội. Được tạo bởi Facebook.

X (Twitter) Character Limit

Bài đăng X (trước đây là Twitter) giới hạn 280 ký tự. Ký tự CJK đếm là 2 ký tự mỗi ký tự.

Instagram Caption Limit

Chú thích Instagram cho phép tối đa 2.200 ký tự. Có thể sử dụng tối đa 30 hashtag mỗi bài đăng.

SMS Character Limit

Tin nhắn SMS giới hạn 160 ký tự (GSM 7-bit) hoặc 70 ký tự (Unicode/UCS-2). Tin nhắn dài hơn bị chia nhỏ.

Locale

Sự kết hợp của ngôn ngữ, khu vực và cài đặt định dạng, được xác định bằng mã như ja-JP, en-US.

ICU (International Components for Unicode)

Thư viện quốc tế hóa Unicode cung cấp đối chiếu chuỗi, chuyển đổi, định dạng và xử lý đa ngôn ngữ.

Văn bản hai chiều (BiDi)

Xử lý văn bản trái-sang-phải (LTR) và phải-sang-trái (RTL) hỗn hợp, cần thiết cho tiếng Ả Rập và tiếng Hebrew trong nội dung đa ngôn ngữ.

CJK (Chinese-Japanese-Korean Unified Ideographs)

Hệ thống xử lý ký tự tiếng Trung, tiếng Nhật và tiếng Hàn được thống nhất trong Unicode dưới dạng CJK Unified Ideographs.

Input Method (IME)

Phần mềm cho phép nhập các ký tự không có sẵn trực tiếp trên bàn phím, như ký tự tiếng Nhật và tiếng Trung.

Đối chiếu

Quy tắc so sánh và sắp xếp chuỗi. Định nghĩa thứ tự sắp xếp thay đổi theo ngôn ngữ và văn hóa.

Chuyển tự

Quá trình chuyển đổi văn bản từ hệ thống chữ viết này sang hệ thống khác trong khi bảo tồn ngữ âm.

Regular Expression Pattern

Ngôn ngữ mẫu để tìm kiếm và thay thế văn bản. Kết hợp ký tự đặc biệt và ký tự chữ để định nghĩa mẫu chuỗi.

Regex Quantifier

Ký tự meta như *, +, ?, {n,m} chỉ định số lần lặp. Chúng kiểm soát số lần phần tử trước xuất hiện.

Regex Character Class

Cú pháp chỉ định tập ký tự như [a-z], d, w. Định nghĩa phạm vi ký tự để khớp.

Regex Group

Nhóm bắt sử dụng () và tham chiếu ngược. Nhóm phần mẫu để bắt và tái sử dụng chuỗi con đã khớp.

Regex Lookahead

Cú pháp regex sử dụng (?=...) và (?!...) để khớp dựa trên những gì theo sau mà không tiêu thụ ký tự.

Regex Backreference

Tính năng tái sử dụng văn bản đã khớp bởi nhóm bắt trong cùng mẫu. Tham chiếu bằng \1, \2, v.v.

Morphological Analysis

Quá trình phân đoạn văn bản thành đơn vị có nghĩa tối thiểu (hình vị) và gán thông tin ngữ pháp.

Tokenization

Quá trình chia văn bản thành token (từ, từ phụ hoặc đơn vị xử lý khác).

Stopword

Các từ xuất hiện thường xuyên bị loại trừ khỏi tìm kiếm và phân tích văn bản, như "a", "the", "is" và "in".

N-gram

Phương pháp chia văn bản thành các chuỗi con liên tiếp gồm N ký tự hoặc từ, dùng trong tìm kiếm và độ tương tự văn bản.

Sentiment Analysis

Quá trình xác định cực tính cảm xúc (tích cực, tiêu cực, trung tính) từ văn bản.

TF-IDF

Term Frequency-Inverse Document Frequency. Phương pháp định lượng tầm quan trọng của từ trong tài liệu.

Named Entity Recognition (NER)

Kỹ thuật NLP tự động xác định và phân loại thực thể có tên như tên người, địa điểm và tổ chức từ văn bản.

Line Height

Khoảng cách dọc giữa các dòng văn bản. Được kiểm soát bằng thuộc tính CSS line-height, ảnh hưởng đáng kể đến khả năng đọc.

Whitespace

Ký tự vô hình như khoảng trắng, tab và xuống dòng. Chúng đóng vai trò quan trọng trong xử lý văn bản và bố cục.

Ligature

Kỹ thuật typography kết hợp hai hoặc nhiều ký tự thành một glyph duy nhất. Các ví dụ phổ biến bao gồm fi, fl và ff.

Kerning

Kỹ thuật điều chỉnh khoảng cách giữa các ký tự liền kề để đạt được khoảng cách đều về mặt thị giác dựa trên tổ hợp ký tự.

JSON

JavaScript Object Notation, định dạng trao đổi dữ liệu nhẹ, dễ đọc cho cả con người và máy tính.

CSV

Comma-Separated Values, định dạng văn bản biểu diễn dữ liệu với dấu phẩy phân cách. Được sử dụng rộng rãi để trao đổi dữ liệu bảng.

XML

Extensible Markup Language, ngôn ngữ đánh dấu mô tả cấu trúc dữ liệu sử dụng thẻ.

YAML

YAML Ain't Markup Language, định dạng tuần tự hóa dữ liệu dễ đọc dựa trên thụt lề.

Markdown

Ngôn ngữ đánh dấu nhẹ thêm định dạng cho văn bản thuần bằng cú pháp đơn giản, có thể chuyển đổi sang HTML.

HTML Entity

Tham chiếu ký tự để biểu diễn các ký tự đặc biệt trong HTML. Bắt đầu bằng & và kết thúc bằng ;.

MIME Type

Hệ thống phân loại tiêu chuẩn để xác định loại tệp và dữ liệu. Biểu diễn dưới dạng type/subtype.

Hash Value

Giá trị có độ dài cố định được tạo từ dữ liệu có độ dài tùy ý bằng hàm băm. Dùng để xác minh tính toàn vẹn dữ liệu và phát hiện giả mạo.

Checksum

Giá trị được tính toán để phát hiện lỗi trong dữ liệu. Dùng để xác minh toàn vẹn dữ liệu trong truyền tải và lưu trữ.

Encryption

Quá trình chuyển đổi dữ liệu thành định dạng không đọc được. Chỉ những người có khóa giải mã mới có thể khôi phục dữ liệu gốc.

Plain Text

Dữ liệu văn bản không mã hóa có thể đọc trực tiếp bởi con người.

Sanitization

Quá trình loại bỏ hoặc vô hiệu hóa mã độc hại và ký tự không hợp lệ từ đầu vào người dùng. Phòng thủ cơ bản chống XSS và SQL injection.

Screen Reader

Công nghệ hỗ trợ đọc to văn bản và phần tử UI trên màn hình. Hỗ trợ truy cập web cho người khiếm thị.

ARIA Label

Thuộc tính được định nghĩa trong đặc tả WAI-ARIA cung cấp tên có thể truy cập cho phần tử UI. Chỉ định văn bản được đọc bởi trình đọc màn hình.

Contrast Ratio

Tỷ lệ số học của sự khác biệt độ sáng giữa màu nền trước và nền sau. WCAG yêu cầu 4.5:1 hoặc cao hơn cho khả năng đọc văn bản.

Semantic HTML

Sử dụng phần tử HTML truyền đạt rõ ràng ý nghĩa và cấu trúc nội dung. Sử dụng đúng các phần tử như header, nav, main, article và section.

Focus Indicator

Hiển thị trực quan cho biết phần tử nào đang có focus bàn phím. Thường hiển thị dưới dạng đường viền hoặc vùng sáng.

Text-to-Speech (TTS)

Công nghệ chuyển đổi dữ liệu văn bản thành giọng nói. Công nghệ nền tảng cho trình đọc màn hình và trợ lý giọng nói.

Thuật ngữ/h1>

Đo lường văn bản