используя конвертер WordToHtmlConverter в Apache POI - PullRequest
0 голосов
/ 23 ноября 2011

Я пытаюсь использовать класс WordToHtmlConverter для преобразования текстового документа в HTML, но документация не ясна.

В WordToHtmlConverter есть конструктор, принимающий org.w3c.dom.Document, но я не думаю, что это слово document.

У кого-нибудь есть пример программы о том, как загрузить текстовый документ и преобразовать его в html.

1 Ответ

4 голосов
/ 23 ноября 2011

Наилучшим вариантом на данный момент является, вероятно, просмотр модульных тестов, например TestWordToHtmlConverter . Это покажет вам, как это сделать

Как правило, вы передаете XML-документ для заполнения, WordToHtmlConverter генерирует в него HTML-код из документа Word, а затем преобразует XML-документ в соответствующий вывод (отступ, новые строки и т. Д.)

Ваш код будет выглядеть примерно так:

    Document newDocument = DocumentBuilderFactory.newInstance()
            .newDocumentBuilder().newDocument();
    WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(
            newDocument );

    wordToHtmlConverter.processDocument( hwpfDocument );

    StringWriter stringWriter = new StringWriter();
    Transformer transformer = TransformerFactory.newInstance()
            .newTransformer();
    transformer.setOutputProperty( OutputKeys.INDENT, "yes" );
    transformer.setOutputProperty( OutputKeys.ENCODING, "utf-8" );
    transformer.setOutputProperty( OutputKeys.METHOD, "html" );
    transformer.transform(
            new DOMSource( wordToHtmlConverter.getDocument() ),
            new StreamResult( stringWriter ) );

    String html = stringWriter.toString();
...