import pdftotext
# Load your PDF
with open("docs/doc1.pdf", "rb") as f:
docs = pdftotext.PDF(f)
print(docs[0])
этот код печатает пустым для этого файла спецификаций c, если я изменяю файл, он дает мне результат. Я пробовал даже apache Тика. Тика также вернуть Нет, как решить эту проблему?
Одна вещь, которую я хотел бы упомянуть здесь, это то, что pdf состоит из нескольких изображений
Вот file Это образец pdf, а не оригинальный. но я хочу извлечь из PDF-файла что-то вроде этого