OCR (Nhận dạng ký tự quang học)

Công nghệ tự động nhận dạng ký tự từ hình ảnh hoặc tài liệu quét, chuyển đổi thành dữ liệu văn bản có thể chỉnh sửa. Được sử dụng để số hóa tài liệu giấy và trích xuất văn bản từ hình ảnh.

OCR (Optical Character Recognition - Nhận dạng ký tự quang học) là công nghệ nhận dạng ký tự trong hình ảnh và chuyển đổi thành dữ liệu văn bản. Số hóa tài liệu giấy bằng máy quét, đọc chữ trên biển hiệu từ ảnh chụp, trích xuất văn bản từ trang PDF dạng hình ảnh - tất cả đều là ứng dụng của OCR. Ứng dụng quét danh thiếp trên điện thoại thông minh cũng sử dụng OCR bên trong.

Quy trình xử lý OCR gồm 4 giai đoạn: tiền xử lý → phát hiện vùng ký tự → nhận dạng ký tự → hậu xử lý. Tiền xử lý bao gồm chỉnh nghiêng, khử nhiễu, nhị phân hóa (chuyển đen trắng). Phát hiện vùng ký tự xác định phần nào của hình ảnh chứa văn bản. Nhận dạng ký tự chuyển đổi hình ảnh ký tự thành văn bản. Hậu xử lý sử dụng từ điển và mô hình ngôn ngữ để sửa lỗi nhận dạng.

OCR tiếng Việt đối mặt với thách thức đặc thù từ hệ thống dấu thanh và dấu phụ. Các dấu thanh (sắc, huyền, hỏi, ngã, nặng) và dấu phụ (ă, â, ê, ô, ơ, ư) là các chi tiết nhỏ dễ bị nhầm lẫn hoặc bỏ sót. Ví dụ, "ơ" và "o", "ă" và "a", "ư" và "u" chỉ khác nhau ở dấu phụ nhỏ. Dấu hỏi và dấu ngã cũng dễ nhầm lẫn do hình dạng tương tự. Tài liệu in chất lượng thấp hoặc font chữ nhỏ càng làm tăng tỷ lệ lỗi. Các engine OCR hiện đại dựa trên deep learning đạt độ chính xác trên 98% với văn bản in tiếng Việt rõ nét, nhưng giảm xuống 85-90% với tài liệu cũ hoặc chữ viết tay.

Độ chính xác OCR ảnh hưởng trực tiếp đến đếm ký tự. Lỗi nhận dạng một ký tự không thay đổi tổng số ký tự, nhưng lỗi gộp (nhận 2 ký tự thành 1) hoặc lỗi tách (nhận 1 ký tự thành 2) sẽ thay đổi số ký tự. Đặc biệt với tiếng Việt, nếu dấu thanh bị nhận dạng thành ký tự riêng biệt thay vì phần của ký tự có dấu, số ký tự sẽ tăng sai. Cần kiểm tra độ chính xác trước khi tin tưởng số ký tự từ kết quả OCR.

Google Tesseract, Adobe Acrobat OCR, Microsoft Azure AI Vision là các engine OCR phổ biến hỗ trợ đa ngôn ngữ, bao gồm tiếng Việt. Dịch vụ OCR đám mây thường chính xác hơn engine cục bộ, nhưng có lo ngại bảo mật khi gửi tài liệu mật lên máy chủ bên ngoài. Đối với tiếng Việt, VietOCR (dựa trên Tesseract) là giải pháp mã nguồn mở được tối ưu hóa riêng cho tiếng Việt.

OCR là công nghệ cầu nối chuyển đổi "số ký tự trên giấy" thành "số ký tự kỹ thuật số". Khi số hóa một trang tài liệu viết tay, kết quả OCR không nhất thiết cho ra đúng số ký tự gốc. Lỗi nhận dạng, cách xử lý khoảng trắng, cách diễn giải xuống dòng đều làm thay đổi số ký tự, nên văn bản sau OCR luôn cần qua bước kiểm tra và chỉnh sửa bởi con người.

OCR (Nhận dạng ký tự quang học)

Chia sẻ bài viết này

Thuật ngữ liên quan

Bài viết liên quan