Невозможно извлечь арабский c текст из PyPDF2 - PullRequest
0 голосов
/ 27 апреля 2020

Не могли бы вы помочь мне найти решение для получения текста, написанного на арабском c из файла PDF?

Я попробовал следующий код, но он не работал для я:

импорт PyPDF2

file = PyPDF2.PdfFileReader (open ('P07.pdf')) *

I получить следующую ошибку:

PdfReadWarning: объект потока / файла PdfFileReader не находится в двоичном режиме. Это может быть не правильно прочитано. [pdf.py:1079]

UnsupportedOperation: невозможно выполнить ненулевой поиск по конечным относительным значениям

Дополнительные примечания:

Файл P07.pdf представляет собой страницу из газеты арабского c, в которой есть текст и фотография.

Кроме того, аргумент encoding = "UTF-8" также не работает.

Заранее спасибо.

...