Разобрать арабский PDF в обычный текст - PullRequest
0 голосов
/ 19 марта 2019

У меня проблема с разбором арабского PDF в обычный текст. Я пробовал Apache Tika, PDFBox (как на Java, так и на Python) и несколько менее популярных инструментов, таких как PyPDF2, каждый раз получая смешанный порядок знаков. Для PDFBox я использовал подсказку из документации по языкам RTL link , но она не работала. Пример представлен ниже:

Оригинальный PDF: enter image description here

Сгенерированный текст: enter image description here

Порядок меняется в каждой строке, по которой встречается латиница. Кто-нибудь сталкивался с подобной проблемой и решил ее?

Спасибо за помощь!

...