Я пытаюсь извлечь текст из некоторых файлов .pdf, используя PyPDF:
pdfFileObject = open(filepath, 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObject)
count = pdfReader.numPages
text = ''
for i in range(count):
page = pdfReader.getPage(i)
text += page.extractText()
Иногда text
возвращает (почти) правильную строку (с некоторыми проблемами кодирования, как в некоторых немецких текстах, все в порядке, кроме Umlauts (äöü)), но в основном (независимо от языка) это выглядит примерно так:
'\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nÈ\n\n'
Я не распознал ни одного шаблона в выборе (почти) правильно и совершенно неправильно проанализированных файлов. У некоторых из них есть таблицы (это худшие, это правда), но некоторые из них выглядят просто и понятно.
К сожалению, PyPDF2, кажется, единственный рабочий модуль для меня ... Делает ли это что-то делать? с кодировкой? Я бы хотел, чтобы все персонажи были правильно представлены в любом случае, хотя в данном случае это не очень важно.
Буду благодарен за любое предложение.