Lý thuyết


Nhận dạng ký tự quang học (Optical Character Recognition – OCR) là kĩ thuật chuyển đổi hình ảnh chữ viết tay hoặc đánh máy thành các văn bản tài liệu. Công nghệ này hiện được phát triển thành nhiều ứng dụng hữu ích như dịch thuật theo thời gian thực, định danh khách hàng điện tử hay xử lý hóa đơn, chứng từ,…. Ngày nay, OCR có khả năng xử lí trên 200 ngôn ngữ và hứa hẹn sẽ tiếp tục mang lại những bước tiến vượt bậc nhờ Trí tuệ nhân tạo.

Có nhiều thư viện OCR, trong đó phổ biến nhất là Tesseract OCR: cung cấp một công cụ OCR – libtesseract và chương trình dòng lệnh – tesseract. So với phiên bản Tesseract 3 thì Tesseract 4 bổ sung một công cụ OCR dựa trên mạng thần kinh nhân tạo (LSTM), tập trung vào nhận dạng dòng và các mẫu ký tự. Tesseract hỗ trợ nhiều định dạng đầu ra như văn bản, hOCR (HTML), PDF, TSV, cũng như thử nghiệm đầu ra ALTO (XML).

Cài đặt thư viện:

  1. Tải file cài đặt và chạy Tesseract-OCR installation file

  2. Chọn ngôn ngữ

    Install wizard choose language

  3. Chọn Next > :

    Welcome

  4. Đọc cam kết rồi chọn I Agree

    Welcome

  5. Chọn cài đặt cho 1 user hay toàn bộ user trong máy rồi chọn Next > :

    Users

  6. Chọn thành phần cài đặt, nhớ chọn ngôn ngữ OCR

    Language

  7. Chọn Next > :

    Components

  8. Chọn nơi cài Tesseract-OCR, hoặc dùng nơi cài mặc định

    Install wizard choose location

  9. Chọn Install :

    Shortcuts

  10. Sau khi cài đặt xong, chọn Next > :

    Complete

  11. Chọn Finish :

    Finish

  12. Cài đặt trong môi trường ảo:

conda install -c conda-forge pytesseract pillow

9.1. OCR ảnh