Java Spring / Apache Tika / Thymeleaf - текст и изображение из MSWord в XHTML - PullRequest
0 голосов
/ 25 марта 2019

Я пытаюсь получить документ MSWord в формате HTML / XHTML «как есть», используя Apache Tika, Spring и Thymeleaf, но я не могу вернуть такие элементы, как изображения, таблицы и т. Д.

Я следовал руководствам по примерам документации на http://tika.apache.org/1.20/examples.html.

    public String getTikaTest() throws Exception {
    ContentHandler handler = new ToXMLContentHandler();

    AutoDetectParser parser = new AutoDetectParser();
    Metadata metadata = new Metadata();
    try (InputStream stream = new FileInputStream("/home/folder1/test.docx")) {
        parser.parse(stream, handler, metadata);
        return handler.toString();
    }
}

...

    @GetMapping({ "/document" })
    public ModelAndView test() {
    modelAndView.addObject("test", testService.getTikaTest());

    return modelAndView;
    }

...

    <div th:fragment="document">
    <div th:utext="${test}"></div>
    </div>

Простой текст в порядке, но я не могу извлечь элементы в виде изображений на веб-страницу, я могу видеть их внутри объекта-обработчика, как встроенный тег: "image1.png", но я не знаю, как сделать это работает на уровне просмотра. Заранее спасибо.

...