Ваш PDF-файл, из которого вы хотите извлечь текст, на самом деле представляет собой просто отсканированные фотографии. Поскольку PdfFileReader и другие программы чтения PDF-файлов извлекают текст на основе метаданных документа, вы не получите никаких результатов (если текст еще не встроен в PDF, вам потребуется использовать OCR для извлечения текста.) .
Для этого вы можете использовать Tesseract, Tesseract не использует ocr pdf, поэтому преобразуйте .pdf в .tiff с помощью команды convert:
convert -density 300 /path/to/my/document.pdf -depth 8 -strip -background white -alpha off file.tiff
Затем используйте tesseract для этого файла:
tesseract file.tiff output.txt