pdftotext возвращает пустое значение, но pdf имеет несколько строк и несколько страниц, почему? - PullRequest
0 голосов
/ 24 марта 2020
import pdftotext

# Load your PDF
with open("docs/doc1.pdf", "rb") as f:
    docs = pdftotext.PDF(f)

print(docs[0])

этот код печатает пустым для этого файла спецификаций c, если я изменяю файл, он дает мне результат. Я пробовал даже apache Тика. Тика также вернуть Нет, как решить эту проблему?

Одна вещь, которую я хотел бы упомянуть здесь, это то, что pdf состоит из нескольких изображений

Вот file Это образец pdf, а не оригинальный. но я хочу извлечь из PDF-файла что-то вроде этого

...