Необходимо разобрать файл PDF, чтобы извлечь только первые начальные строки текста, и искать различные пакеты Python для выполнения работы, но безуспешно.
Попробовав:
PDFminer , PDFminer.six и PDFminer3k , что представляется слишком сложным для простой работы, и я не смог найти простой рабочий пример
slate , получил error при установке, хотя работал с исправлением из потока, но получил ошибку, когда пытаясь; возможно, использующий неправильный PDFminer, но не может понять, какой использовать
PyPDF2 и PyPDF3 , но это дало мусор, как описано здесь
tika , который выдавал различные сообщения об ошибках терминала и был очень медленным
pdftotext не удалось установить
pdf2text не удалось выполнить «import pdf2text», а при изменении на «pdftotext» не удалось выполнить импорт с помощью «ImportError: невозможно импортировать имя» Extractor «Даже через pip list
видно, что установлен« Extractor »
Обычно я нахожу, что установленные Python пакеты работают на удивление хорошо, но парсинг PDF в текст кажется джунглями, На что также указывает множество инструментов.
Любое предложение о том, как выполнить простой анализ PDF-файла в текст в Python?
Добавлен пример PyPDF2
Пример PyPDF2:
import PyPDF2
pdfFileObj = open('file.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj_0 = pdfReader.getPage(0)
print(pageObj_0.extractText())
, который возвращает мусор как:
$% $% &% & $ ' ('˜!) "* + #