По моему опыту, Tesserocr намного быстрее, чем Pytesseract.
Tesserocr - это оболочка Python для API Tesseract C ++.Принимая во внимание, что pytesseract является оберткой CLI tesseract-ocr.
Таким образом, с Tesserocr вы можете загрузить модель в начале или вашу программу и запустить модель отдельно (например, в циклах для обработки видео).С помощью pytesseract каждый раз, когда вы вызываете функцию image_to_string
, она загружает модель и обрабатывает изображение, поэтому медленнее обрабатывает видео.
Для установки tesserocr я просто набрал в терминале pip install tesserocr
.
Для использования tesserocr
import tesserocr
from PIL import Image
api = tesserocr.PyTessBaseAPI()
pil_image = Image.open('sample.jpg')
api.SetImage(pil_image)
text = api.GetUTF8Text()
Для установки pytesseract: pip install pytesseract
.
Для запуска:
import pytesseract
import cv2
image = cv2.imread('sample.jpg')
text = pytesseract.image_to_string(image)