Тессеракт не может прочитать математическое выражение - PullRequest
0 голосов
/ 25 марта 2019

Я получил это изображение простого математического выражения, которое Тессеракт не может прочитать:

8 - 3 = 5

Я протестировал скриншот того же выражения, написанного на телефоне Android, и он был прочитан довольно хорошо. Поэтому я подумал, что это проблема со шрифтом. Я считал:

  • Предварительная обработка изображения путем инвертирования или удаления красных областей
  • Обучение Tesseract с изображениями (вопрос StackOverflow без ответов)
  • Использование WhatFontIs.com для поиска аналогичного шрифта, а затем обучение Tesseract с помощью файла шрифта с помощью TrainYourTesseract

1 Ответ

0 голосов
/ 25 марта 2019

Но когда я набирал вопрос, я оглядывался по сторонам.

И этот ответ побудил меня дважды проверить мою вменяемость с помощью этого VietOCR программного обеспечения, котороевывод 8-3, достаточно близко!

Затем я запутался в программном обеспечении и обнаружил, что могу передать --psm 7 (Page Segmentation Mode 7: Treat the image as a single text line) моему сценарию, который хорошо работает для моих математических выражений:

pytesseract.image_to_string(img, config='--psm 7')

Список PSM

...