OCR отсканированные карты с использованием Google Vision API - PullRequest
0 голосов
/ 01 апреля 2020

Моя конечная цель - прочитать имя владельца земли и записать местоположение из серии Сельских карт. См. здесь для примера ввода. В настоящее время моя идея состоит в том, чтобы использовать API Google vision для извлечения текста, а затем связать текст обратно с исходными координатами сетки на карте. Я использую стандартный код python для извлечения этого текста из здесь . Это оставляет мне 2 вопроса:

1) Я понимаю, что API выводит только JSON файлы. Записывает ли это JSON координаты PDF извлеченного текста?
2) Есть ли способ преобразовать этот JSON в упрощенный документ PDF с возможностью поиска, где присутствует только текст?

Кроме того, если кто-нибудь знает какие-либо более эффективные способы распознавания этой карты и извлечения местоположений строк, я был бы признателен!

1 Ответ

0 голосов
/ 02 апреля 2020

Из моего опыта работы с Google OCR (использование PHP в качестве языка сценариев - но это не должно иметь никакого значения, поскольку ваш вопрос зависит от API, а не от python), вы можете сделать это.

Как вы можете видеть в документации API, каждый текстовый блок, найденный OCR, имеет четыре точки, которые описывают ограничивающую рамку (прямоугольник angular): https://cloud.google.com/vision/docs/ocr

In На вашем примере карты качество текста довольно плохое. Это даст вам много неправильных или пропущенных результатов распознавания.

Чтобы преобразовать этот текст в PDF, вам нужно выполнить собственное кодирование, поскольку эта задача очень специфична c.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...