Я бы сказал, что у вас есть два варианта, оба на основе Apache POI
Один должен использовать Apache Tika . Tika - это набор инструментов для извлечения текста и метаданных, способный извлекать довольно насыщенный текст из документов Word, делая соответствующие вызовы POI. В результате Tika предоставит вам XML-файл в стиле XHTML для содержимого вашего текстового документа.
Другой вариант - использовать класс, который был добавлен относительно недавно в POI, а это WordToHtmlConverter . Это превратит ваш текстовый документ в HTML для вас и, как правило, сохранит немного больше структуры и форматирования, чем Tika.
В зависимости от типа XML, который вы надеетесь получить, один из них должен быть хорошим выбором для вас. Я бы посоветовал вам попробовать оба файла примеров и посмотреть, какой из них лучше всего подходит для вашей проблемной области и потребностей.