pdf анализ текста в java - PullRequest
       30

pdf анализ текста в java

3 голосов
/ 07 марта 2011

У меня есть PDF на арабском языке, и я хочу преобразовать его в текстовый документ с помощью Java.Я пробовал много раз, и английские слова успешно разбираются, а арабские - нет.

Кто-нибудь может порекомендовать решение, которое также правильно преобразовало бы арабские слова?

Ответы [ 2 ]

2 голосов
/ 07 марта 2011

Есть несколько библиотек, которые приходят на ум. Apache Tika , iText или pdfbox более или менее решат вашу проблему.Хотя я должен добавить слово для Tika, поскольку оно поддерживает определение языка, а также может обрабатывать и другие типы документов.

1 голос
/ 07 марта 2011

Я думаю, вы можете использовать iText для работы с PDF с использованием Java. Он также поддерживает арабский язык.

...