Я пытаюсь извлечь некоторые записи из PDF, но из-за плохого форматирования неудобно просто анализировать, как обычный документ. Не существует единого позиционирования для текста, поэтому каждая запись представляет собой уникальную схватку без единого шаблона, который я могу найти. Мне нужно только имя записи и информация справа, а не имя поля или описание.
Я попытался поэкспериментировать с заголовками и информацией макета с помощью модуля PyPDF2, но, похоже, нет метаданных для PDF, кроме основной информации об авторе.
Моя идея заключалась в том, чтобы использовать API Google Cloud Vision для расшифровки текста, но это поднимает проблемы автоматического позиционирования.
Кто-нибудь знает лучшую методологию для этого или, если нет, просто как выполнить позиционирование для API Cloud Vision?