Разбор текстового документа в Java с использованием Apache POI - PullRequest
0 голосов
/ 28 сентября 2019

Я пытаюсь разобрать текстовые документы в Java, используя Apache POI.Мое ограничение заключается в том, что код должен анализировать любой данный документ, поэтому я пытаюсь найти подходящий, но минимальный алгоритм для этого.

Я успешно провел тесты с библиотекой и извлек абзацы и изображения,сейчас я пытаюсь понять, как на самом деле извлечь абзацы вместе с изображениями в правильном порядке.Это означает, что мне нужно создать свой собственный объект, содержащий абзацы, заголовки, субтитры и изображения в правильном порядке, как указано в документе.

Есть ли кто-нибудь, кто делал это раньше, или имеет представление о том, какправильно подойти к этому?

Примечание: анализ выполняется в приложении JEE, поэтому я на самом деле возвращаю JSON ответы на AJAX вызов.

...