Question

У меня проблема с разбором арабского PDF в обычный текст. Я пробовал Apache Tika, PDFBox (как на Java, так и на Python) и несколько менее популярных инструментов, таких как PyPDF2, каждый раз получая смешанный порядок знаков. Для PDFBox я использовал подсказку из документации по языкам RTL link , но она не работала. Пример представлен ниже:

Оригинальный PDF:

Сгенерированный текст:

Порядок меняется в каждой строке, по которой встречается латиница. Кто-нибудь сталкивался с подобной проблемой и решил ее?

Спасибо за помощь!

Разобрать арабский PDF в обычный текст

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Разобрать арабский PDF в обычный текст

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы