Тессеракт не может распознать изображения с рукописным текстом, что я могу сделать? - PullRequest
0 голосов
/ 16 октября 2019

Как я уже задавал в своем предыдущем вопросе , проблема, с которой я сталкиваюсь, заключается в том, что у меня есть сотни изображений рукописных заметок. Они были написаны от разных людей, но они в последовательности, так что вы знаете, например, person1 писал img1.jpg -> img100.jpg. Стиль почерка сильно варьируется от человека к человеку, но есть части заметок, которые всегда фиксированы (возможно, это может помочь алгоритму).

Я следовал одному предложению пользователя использовать tesseract, но это не моглоне распознает любой текст. Текст не на английском языке, но я использовал соответствующий файл языковых данных.

Мои знания по ai ограничены, но при поиске и просмотре некоторых работ кажется, что это можно сделать с помощью CNN,Кто-нибудь может подсказать, что мне следует делать отсюда? Я бы хотел продолжить работу над проектом, но у меня также не так много времени, чтобы узнать о нейронных сетях. Насколько сложно реализовать решение, которое решает эту задачу?

1 Ответ

0 голосов
/ 28 октября 2019

Я бы не использовал тессеракт для распознавания почерка. Вы можете обучить тессеракт распознаванию рукописного текста, но из коробки он хорошо работает для печатного текста и множества шрифтов и языков.

Вот две ссылки, как обучить его самостоятельно:

У меня были лучшие результаты с Amazon Recognition: https://aws.amazon.com/en/recognition Я хотел бы иметь автономную библиотеку Java для этого, но еще не нашел. Следующим моим шагом будет использование сервисов ABBYY, поскольку они также могут фокусироваться на отдельных рукописных символах: https://abbyy.technology/en:features:ocr:icr

...