Я пытаюсь получить документ MSWord в формате HTML / XHTML «как есть», используя Apache Tika, Spring и Thymeleaf, но я не могу вернуть такие элементы, как изображения, таблицы и т. Д.
Я следовал руководствам по примерам документации на http://tika.apache.org/1.20/examples.html.
public String getTikaTest() throws Exception {
ContentHandler handler = new ToXMLContentHandler();
AutoDetectParser parser = new AutoDetectParser();
Metadata metadata = new Metadata();
try (InputStream stream = new FileInputStream("/home/folder1/test.docx")) {
parser.parse(stream, handler, metadata);
return handler.toString();
}
}
...
@GetMapping({ "/document" })
public ModelAndView test() {
modelAndView.addObject("test", testService.getTikaTest());
return modelAndView;
}
...
<div th:fragment="document">
<div th:utext="${test}"></div>
</div>
Простой текст в порядке, но я не могу извлечь элементы в виде изображений на веб-страницу, я могу видеть их внутри объекта-обработчика, как встроенный тег: "image1.png", но я не знаю, как сделать это работает на уровне просмотра. Заранее спасибо.