Последовательное извлечение из Word с использованием Apache POI - PullRequest
0 голосов
/ 13 января 2020

Есть ли способ последовательно извлечь объекты (текст, таблицу, изображения) из документа Microsoft Word (.docx), используя Apache POI?

Следующий код может извлечь все это, но в целом и не последовательно, то есть не «чередуются» друг с другом, поскольку они фактически появляются в документе, и Word, не предоставляющий границы страницы, не облегчает задачу:

XWPFDocument document = new XWPFDocument(<file input stream>);
XWPFWordExtractor extractor = new XWPFWordExtractor(document);
String text = extractor.getText();
List<XWPFTable> tables = document.getTables();
List<XWPFPictureData> images = document.getAllPictures();

Также, есть ли рекомендуемый способ или пример реализации распознавать различные текстовые разделы (например, по изменению размера шрифта или нумерации) и заголовки объектов (для таблиц и изображений)?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...