OCR quá đơn giản với Tesseract-ocr trên Google Colab

Tram Ho

Lời dẫn đầu

Hello mọi người, tiếp nối chuỗi sharing nho nhỏ về chủ đề OCR. Hôm nay, mình xin được đóng góp một ít sự tìm hiểu của mình qua việc dịch một bài viết rất hay về vấn đề sử dụng Tessaract-OCR cho Text Recognition với trợ thủ Google Colab Link bài tại đây. Và let’s go, mình xin bắt đầu bài sharing hôm nay nhé.

Một số từ khóa

  • Text Recognition
  • Google Colab
  • Tesseract-OCR
  • OCR

Nội dung

Installation

Trước tiên, anh em cài đặt pytesseract . Anh em có thể tìm hiểu thêm về package này trên trang https://pypi.org/project/pytesseract/ .

Nếu anh em sau khi run gặp phải lỗi dưới đây:

TesseractNotFoundError: /usr/bin/tesseract is not installed or it’s not in your PATH

Lạ nhỉ? Yên tâm, việc cài đặt gặp một chút vấn đề. Lý do là vì trong thực tế, anh em bước đầu cần cài đặt các package khác như Tesseract-ocr và tập cmd trực tiếp kết nối với file.exe. Anh em chạy câu lệnh dưới để có thể cài đặt package tesseract-ocr.

Anh em nhớ RESTART RUNTIME để khởi động lại môi trường vừa thiết lập nhé.

Import Libraries

Checking folder cài đặt

Trước khi thực thi khối hàm OCR ảnh, anh em có thể check vị trí lưu cục bộ hiện tại của tesseract:

Kết quả của câu lệnh sẽ cho biết vị trí tesseract:

apt

Importing Image

Anh em có thể sử dụng cv2 để import và chỉnh sửa ảnh. Anh em có thể đọc hình ảnh thông qua hàm imread của OpenCV. Hệ màu được trả về từ cv2 là BGR, do đó anh em lưu ý cần convert sang hệ màu RGB.

Ngoài cách anh em truyền trực tiếp bởi đường dẫn ảnh, anh em hoàn toàn có thể sử dụng đoạn code dưới để có thể upload file ảnh lên Google Colab:

Tham số trong Tesseract

Câu lệnh chính để thực thi OCR trên ảnh:

You can give three important flags for tesseract to work and these are -l , –oem , and –psm.
The -l (lang) flag controls the language of the input text.
The –oem argument, or OCR Engine Mode, controls the type of algorithm used by Tesseract.
The –psm controls the automatic Page Segmentation Mode used by Tesseract.

Tham số lang chính là ngôn ngữ đích mà anh em cần lựa chọn, danh sách các ngôn ngữ mà Tesseract có hỗ trợ được thông tin tại Danh sách ngôn ngữ.

Số lượng tham số chúng ta có thể điều chỉnh bao gồm hai tham số trong config, dưới dây là một số chế độ cho tham số psm trong Tesseract.

Tham số -oem có thể tham khảo tại bảng dưới đây:

apt

Nguồn: https://ai-facets.org/tesseract-ocr-best-practices/

Thực thi OCR và output

Kết quả là 23/10/2000

Tesseract-OCR hoàn toàn được gắn và chạy thành công trên Google Colab. Quá đơn giản đúng không anh em.

apt

Lời cảm ơn

Hy vọng một số thông tin được chia sẻ trong bài dịch sẽ mang lại cho mọi người nhiều điều thú vị và mới mẻ.

Tài liệu tham khảo

  1. https://pub.towardsai.net/using-tesseract-ocr-for-text-recognition-with-google-colab-1c4513b9d3e0
  2. https://ai-facets.org/tesseract-ocr-best-practices/
  3. https://colab.research.google.com/github/bhadreshpsavani/coursera/blob/master/OCRusingTesseract.ipynb
  4. https://github.com/tesseract-ocr/tesseract
Chia sẻ bài viết ngay

Nguồn bài viết : Viblo