PDFBOX для персидского документа - PullRequest
0 голосов
/ 29 августа 2018

Я хочу использовать pdfBox для извлечения теста из персидских pdf-файлов, но для всех персидских символов возвращается "?" (корректно возвращается латиница слова в том же документе).

Как я могу это исправить? Любой совет?

1 Ответ

0 голосов
/ 01 сентября 2018

К сожалению, предоставленный файл содержит персидский текст как векторную графику, а не как текст из шрифтов, поэтому его нельзя извлечь. Для этого вам придется использовать OCR.

См. Также FAQ по извлечению текста :

Почему я не получаю текст из документа PDF?

Извлечение текста из PDF-документа является сложной задачей и там Есть много факторов, которые влияют на возможность и точность извлечение текста. Было бы полезно команде PDFBox, если бы вы могли попробуй пару вещей.

Откройте PDF в Acrobat и попробуйте извлечь из него текст. Если Акробат может извлечь текст, тогда PDFBox должен быть в состоянии, и это ошибка если не может. Если Acrobat не может извлечь текст, тогда PDFBox «вероятно» тоже не могу.

Это может быть изображение вместо текста. Некоторые PDF документы только изображения, которые были отсканированы. Вы можете сказать, используя инструмент выделения в Acrobat, если вы не можете выделить какой-либо текст, то это возможно изображение.

...