Разбор HTML-контента в POI - PullRequest
       15

Разбор HTML-контента в POI

2 голосов
/ 29 сентября 2010

Я использую POI для создания отчета в виде электронной таблицы, у меня html-контент с <p>, <b/>, &nbsp; и т. Д., Как мне проанализировать эти html-теги в POI? есть ли в POI функция, которая может анализировать html-контент?

это образец моего кода POI:

HSSFCell cell = getHSSFCell(mysheet, 5, 1);
cell.setCellValue(new HSSFRichTextString(htmlContent));

Заранее спасибо.

Ответы [ 2 ]

1 голос
/ 06 октября 2011

POI не для HTML, это для MS Office.то, что вы хотите использовать, это Xpath для вашей части разбора HTML.Xpath - это своя кроличья нора, поэтому я не буду вдаваться в подробности, но вот некоторые ресурсы для java xpath:

учебник roseindia

javadocs

IBM Xpath API

0 голосов
/ 30 сентября 2014

Одним из простых решений будет использование анализатора HTML для анализа содержимого HTML, а затем задание текста с помощью POI. Я использую Jericho HTML Parser. http://jericho.htmlparser.net/docs/index.html

Простой анализ HTML с использованием jericho:

Source source = new Source("The HTML Text");
String parsedHTMLText = source.getTextExtractor().toString();
...