Конвертировать HTML-страницу в MS Word, используя Java или любой API - PullRequest
1 голос
/ 05 марта 2012

Я хочу преобразовать HTML-страницу в MS Word. Я хочу знать, какие API будут полезны, а также, если есть какая-либо другая возможность сделать то же самое. Вся страница должна быть преобразована в .doc (например, если на html-странице есть таблица, аналогичная таблица должна быть создана в слове doc). Apache POI не предоставляет возможность форматировать документ Word, как на странице HTML. Мне нужно что-то, что может дать мне полностью отформатированный текстовый документ.

Некоторые вещи, которые я ищу: JSOUP, docx4j, jasper reports и JOD Convertor.

Я попытался проанализировать HTML-страницу с помощью JSOUP, и я получил содержимое страница в моей программе Java. Теперь мне нужно передать это содержимое файл doc / docx. Может ли docx4j быть полезным для получения отформатированного файла docx?

Пожалуйста, помогите. Спасибо.

Ответы [ 2 ]

1 голос
/ 05 марта 2012

Я бы согласился с предложением Ашвини Рамана. Это не будет работать с каждым сценарием. В случае сложного HTML-документа со многими изображениями и прочим словом не получится. Но для большинства случаев это должно быть хорошо. В противном случае перед вами стоит сложная задача. Вам придется проанализировать ваш HTML-документ, например, с помощью библиотеки jsoup, а затем использовать библиотеку docx4j для создания вашего рабочего документа. Ссылки на оба сайта здесь:

http://www.docx4java.org/trac/docx4j

http://jsoup.org/

Когда вы делаете это также, форматирование может быть ненадежным.

Чтобы ответить на ваш оригинальный вопрос, нет готовой библиотеки, которая делает то, что вы ожидаете. По крайней мере, я не сталкивался ни с чем.

0 голосов
/ 14 марта 2012

Я нашел способ сделать то же самое. Сначала мне нужно получить проанализированные объекты с помощью JSOUP и передать их в шаблон документа. Сейчас я ищу варианты, которые могут предоставить мне создание простых шаблонов и создание документа динамически. Я задал другой вопрос относительно того же.

...