PDFminer работает только в том случае, если PDF доступен для поиска вручную - PullRequest
0 голосов
/ 27 февраля 2020

Я хотел бы извлечь текст из файлов PDF, используя PDFminer и Jupyter Notebook.

Здесь - это пример файла PDF, из которого я хотел бы извлечь текст. Когда я использую код, размещенный здесь , выходные данные содержат только нижний колонтитул страницы, в то время как остальная часть документа пропускается.

Однако, если я впервые использую функцию распознавания текста инструмента Nitro Pro чтобы вручную сделать файл PDF доступным для поиска, я могу впоследствии использовать указанный выше код Python для извлечения всего текста из файла.

Я проверил документацию PDFminer, чтобы узнать, есть ли параметр, который я ' m неправильно настроен, но я не смог найти ничего по этому вопросу Я хотел бы конвертировать много файлов, поэтому невозможно конвертировать каждый файл вручную с помощью инструмента Nitro Pro.

...