pdftabextract не является OCR. Требуются отсканированные страницы с OCR
информация, то есть «сэндвич PDF», который содержит как отсканированные
изображения и распознанный текст. Вам нужно программное обеспечение, как Tesseract или
ABBYY Finereader for OCR.
Пожалуйста, попробуйте tesseract, у него относительно более простая реализация.