У меня проблема с разбором арабского PDF в обычный текст. Я пробовал Apache Tika, PDFBox (как на Java, так и на Python) и несколько менее популярных инструментов, таких как PyPDF2, каждый раз получая смешанный порядок знаков. Для PDFBox я использовал подсказку из документации по языкам RTL link , но она не работала.
Пример представлен ниже:
Оригинальный PDF:
Сгенерированный текст:
Порядок меняется в каждой строке, по которой встречается латиница. Кто-нибудь сталкивался с подобной проблемой и решил ее?
Спасибо за помощь!