Тессеракт не смог обнаружить очень простое бинаризованное изображение - PullRequest
1 голос
/ 24 октября 2019

Я использую Tesseract в Python с PyTesseract. Моя цель - обнаружить персонажей на скриншоте. Текст на скриншоте идеально выровнен, и бинаризация работает отлично. Но частота обнаружения Тессеракта очень низкая.

Я уже пробовал:

  1. Гауссовские фильтры до и после бинаризации
  2. Повышение масштаба
  3. Другой, выбранный вручнуюпороги
  4. Нет порогового значения
  5. Tesseract 4.0 и 5.0 alpha

Вот мой скрипт на Python:

from skimage import io
import pytesseract

im = io.imread("screenshots/test.png", as_gray=True)

thresholded = im > .30
thresholded += im < 0.02

print(pytesseract.image_to_string(thresholded, lang="eng"))


Изображения: https://imgur.com/a/ICp3mHu

Результаты:

  • "Дилан"
  • "Free Flowing Trartic"
  • "Ограничения дорожного движения"
  • "PE Тааре"
...