Pdf анализ текста с использованием Java - PullRequest
0 голосов
/ 05 декабря 2011

У меня та же проблема извлечения арабского текста из PDF-файла, может ли кто-нибудь помочь, если есть решение ???Я много раз пробовал с pdfbox, но безрезультатно.

1 Ответ

0 голосов
/ 05 декабря 2011

Есть несколько вещей, которые могут пойти не так при извлечении текста из PDF:

  1. PDF зашифрован. В этом случае вам нужен пароль для извлечения данных.
  2. PDF как формат на самом деле не предназначен для извлечения текста. Таким образом, pdfbox обычно пытается идентифицировать символы, расположенные близко друг к другу, и объединять их в слова. Как вы можете изобразить, это может легко пойти не так.

Проверьте этот вопрос для получения дополнительной информации.

...