Я пытаюсь извлечь текст из файла PDF, используя Python. Моя главная цель - я пытаюсь создать программу, которая читает выписку из банка и извлекает ее текст для обновления файла Excel, чтобы легко регистрировать ежемесячные расходы. Сейчас я сосредоточен только на извлечении текста из файла PDF, но я не знаю, как это сделать.
Какой сейчас самый лучший и самый простой способ извлечь текст из файла PDF в строку? Какую библиотеку лучше всего использовать сегодня и как я могу это сделать?
Я пытался использовать PyPDF2, но каждый раз, когда я пытаюсь извлечь текст с любой страницы с помощью extractText (), он возвращает пустые строки. Я пытался установить textract, но получаю ошибки, потому что мне нужно больше библиотек.
import PyPDF2
pdfFileObj = open("January2019.pdf", 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)
print(pageObj.extractText())
При печати содержимого страницы печатается пустая строка