Извлечение плохо отформатированного текста из PDF - PullRequest
0 голосов
/ 06 мая 2019

Я пытаюсь извлечь некоторые записи из PDF, но из-за плохого форматирования неудобно просто анализировать, как обычный документ. Не существует единого позиционирования для текста, поэтому каждая запись представляет собой уникальную схватку без единого шаблона, который я могу найти. Мне нужно только имя записи и информация справа, а не имя поля или описание.

An image of the PDF I'm trying to extract data from in the original format

Я попытался поэкспериментировать с заголовками и информацией макета с помощью модуля PyPDF2, но, похоже, нет метаданных для PDF, кроме основной информации об авторе.

Моя идея заключалась в том, чтобы использовать API Google Cloud Vision для расшифровки текста, но это поднимает проблемы автоматического позиционирования.

Кто-нибудь знает лучшую методологию для этого или, если нет, просто как выполнить позиционирование для API Cloud Vision?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...