Как заставить Pytesseract выводить только числа? - PullRequest
1 голос
/ 04 апреля 2019

У меня есть программа, которая читает числа, но иногда она распознает их как другие случайные символы, что является моей проблемой. Помимо фильтрации выходных данных, есть ли способ сделать только выходные числа pytesseract?

Я пробовал:

text = pytesseract.image_to_string(Image.open(filename),config='outputbase digits')
text = pytesseract.image_to_string(Image.open(filename),config='outputbase nobatch digits')

и

text = pytesseract.image_to_string(Image.open(filename),config='tessedit_char_whitelist 0123456789')

Ни одна из ошибок выдачи, но они не изменяют вывод, как ожидалось.

В этот момент я в отчаянии, любая помощь будет оценена! :)

Edit: Я получил результат, на который надеялся, вручную удалив все не числа из шрифта с помощью FontForge , а затем создал файл .trainerdata с http://trainyourtesseract.com/.

Этот метод должен работать независимо от того, какие символы вы хотите добавить в белый список, так как вы можете просто удалить их

...