Question

Я пытаюсь извлечь некоторые записи из PDF, но из-за плохого форматирования неудобно просто анализировать, как обычный документ. Не существует единого позиционирования для текста, поэтому каждая запись представляет собой уникальную схватку без единого шаблона, который я могу найти. Мне нужно только имя записи и информация справа, а не имя поля или описание.

Я попытался поэкспериментировать с заголовками и информацией макета с помощью модуля PyPDF2, но, похоже, нет метаданных для PDF, кроме основной информации об авторе.

Моя идея заключалась в том, чтобы использовать API Google Cloud Vision для расшифровки текста, но это поднимает проблемы автоматического позиционирования.

Кто-нибудь знает лучшую методологию для этого или, если нет, просто как выполнить позиционирование для API Cloud Vision?

Извлечение плохо отформатированного текста из PDF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Извлечение плохо отформатированного текста из PDF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов