Как определить почерк с помощью Google Cloud Vision API - PullRequest
4 голосов
/ 07 мая 2020

TL; DR: как я могу определить присутствие рукописного ввода на изображении?

Я использую Google Python Vision API для сканирования текста на изображениях, в целом с хорошими результатами. В большинстве случаев изображения содержат печатный текст, но иногда присутствует почерк.

Как отмечено в документации, иногда вы можете получить лучшие результаты для рукописного текста с помощью document_text_detection, а не стандартного вызова API text_detection. Мои собственные тесты подтверждают это, но также показывают, что стандартный вызов text_detection обычно лучше всего работает для печатного текста в изображениях JPEG.

Поэтому я хотел бы использовать стандартный text_detection по умолчанию и запускать изображения только через document_text_detection если есть почерк. Однако я не могу найти надежный способ обнаружить присутствие рукописного текста на изображении с помощью API-интерфейсов Vision.

Я пробовал обнаруживать метки, но, похоже, нет специальной метки c для почерк. Иногда он будет выплевывать «Каллиграфию», но ненадежно.

Кто-нибудь знает, как сделать sh это?

1 Ответ

0 голосов
/ 22 июня 2020

Я не использовал Google Cloud Vision API, но вы можете попробовать модели обнаружения объектов. Я бы предложил создать помеченный набор данных поверх изображений документа вашего варианта использования с помощью таких инструментов, как LabelImg , и обучить модель обнаружения объектов, например Yolov3 [ paper ] [ code ]. Я работал над подобными проблемами. Должно сработать.

...