Я хотел бы извлечь текст из файлов PDF, используя PDFminer и Jupyter Notebook.
Здесь - это пример файла PDF, из которого я хотел бы извлечь текст. Когда я использую код, размещенный здесь , выходные данные содержат только нижний колонтитул страницы, в то время как остальная часть документа пропускается.
Однако, если я впервые использую функцию распознавания текста инструмента Nitro Pro чтобы вручную сделать файл PDF доступным для поиска, я могу впоследствии использовать указанный выше код Python для извлечения всего текста из файла.
Я проверил документацию PDFminer, чтобы узнать, есть ли параметр, который я ' m неправильно настроен, но я не смог найти ничего по этому вопросу Я хотел бы конвертировать много файлов, поэтому невозможно конвертировать каждый файл вручную с помощью инструмента Nitro Pro.