Не могли бы вы помочь мне найти решение для получения текста, написанного на арабском c из файла PDF?
Я попробовал следующий код, но он не работал для я:
импорт PyPDF2
file = PyPDF2.PdfFileReader (open ('P07.pdf')) *
I получить следующую ошибку:
PdfReadWarning: объект потока / файла PdfFileReader не находится в двоичном режиме. Это может быть не правильно прочитано. [pdf.py:1079]
UnsupportedOperation: невозможно выполнить ненулевой поиск по конечным относительным значениям
Дополнительные примечания:
Файл P07.pdf представляет собой страницу из газеты арабского c, в которой есть текст и фотография.
Кроме того, аргумент encoding = "UTF-8" также не работает.
Заранее спасибо.