Анализатор HTML для поиска по фразе и регистру в Java - PullRequest
0 голосов
/ 20 января 2011

Я хотел бы знать, есть ли в Java какие-либо парсеры HTML, которые поддерживают поиск по фразе и регистру. Все, что мне нужно знать, это количество посещений html-страницы для искомой фразы и поддержка чувствительности к регистру.

Спасибо, Шарма

Ответы [ 2 ]

1 голос
/ 20 января 2011

Вы пробовали это ?

Вы можете искать текст с помощью регулярных выражений.

0 голосов
/ 20 января 2011

не помогает, если вы берете html-страницу в качестве текста, убираете html-теги:

String noHTMLString = htmlString.replaceAll("\\<.*?\\>", "");

и теперь count что вам нужно в noHTMLString?Это может быть полезно, если у вас есть html-страница с разметкой вроде:

this is <span>cool</span>

и вам нужно искать текст «круто» (потому что предыдущая HTML-страница будет преобразована в строку «это круто»),Для подсчета вы можете использовать StringUtils из Apache Commons Lang , у него есть специальный метод countMatches .Все вместе должно работать так:

String htmlString = "this is <span>cool</span>";    
String noHTMLString = htmlString.replaceAll("\\<.*?\\>", "");
int count = StringUtils.countMatches( noHTMLString, "is cool");

Я бы пошел с таким подходом, по крайней мере, попробовать.Это звучит лучше, чем синтаксический анализ html, а затем обходит его в поисках нужных слов ...

...