Вы не можете прочитать ():
pdfReader.getPage(0)
потому что это не изображение. Из документации мы имеем, что:
GetPage (PageNumber)
Извлекает страницу по номеру из этого файла PDF.
Параметры: pageNumber (int) - Номер страницы, которую нужно получить (страницы начинаются с нуля)
Возвращает : PageObject экземпляр.
Тип возвращаемого значения: PageObject
Итак, для того, чтобы что-то с этим сделать, вам нужно прочитать документацию по этим классам:
extractText ()
Найдите все команды рисования текста в порядке их предоставления в потоке контента и извлеките текст. Это хорошо работает для некоторых файлов PDF, но плохо для других, в зависимости от используемого генератора. Это будет уточнено в будущем. Не полагайтесь на порядок текста, выходящего из этой функции, так как он изменится, если эта функция будет сделана более сложной.
Возвращает: строковый объект Unicode.
PageObject Doc
Подведение итогов
pdfFileObj = open(r'C:\Users\WCS\Desktop\Scan project\Scanned.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
txt = (pdfReader.getPage(0)).extractText()
pdfFileObj.close()
print(txt)
Если вы хотите, чтобы изображение было так плохо, посмотрите на ответ @TarunLalwani, который является более точным.