не помогает, если вы берете html-страницу в качестве текста, убираете html-теги:
String noHTMLString = htmlString.replaceAll("\\<.*?\\>", "");
и теперь count что вам нужно в noHTMLString?Это может быть полезно, если у вас есть html-страница с разметкой вроде:
this is <span>cool</span>
и вам нужно искать текст «круто» (потому что предыдущая HTML-страница будет преобразована в строку «это круто»),Для подсчета вы можете использовать StringUtils из Apache Commons Lang , у него есть специальный метод countMatches .Все вместе должно работать так:
String htmlString = "this is <span>cool</span>";
String noHTMLString = htmlString.replaceAll("\\<.*?\\>", "");
int count = StringUtils.countMatches( noHTMLString, "is cool");
Я бы пошел с таким подходом, по крайней мере, попробовать.Это звучит лучше, чем синтаксический анализ html, а затем обходит его в поисках нужных слов ...