Question

Я хотел бы знать, есть ли в Java какие-либо парсеры HTML, которые поддерживают поиск по фразе и регистру. Все, что мне нужно знать, это количество посещений html-страницы для искомой фразы и поддержка чувствительности к регистру.

Спасибо, Шарма

Õzbek · Answer 1 · 20 января 2011

Вы пробовали это ?

Вы можете искать текст с помощью регулярных выражений.

Maxym · Answer 2 · 20 января 2011

не помогает, если вы берете html-страницу в качестве текста, убираете html-теги:

String noHTMLString = htmlString.replaceAll("\\<.*?\\>", "");

и теперь count что вам нужно в noHTMLString?Это может быть полезно, если у вас есть html-страница с разметкой вроде:

this is <span>cool</span>

и вам нужно искать текст «круто» (потому что предыдущая HTML-страница будет преобразована в строку «это круто»),Для подсчета вы можете использовать StringUtils из Apache Commons Lang , у него есть специальный метод countMatches .Все вместе должно работать так:

String htmlString = "this is <span>cool</span>";    
String noHTMLString = htmlString.replaceAll("\\<.*?\\>", "");
int count = StringUtils.countMatches( noHTMLString, "is cool");

Я бы пошел с таким подходом, по крайней мере, попробовать.Это звучит лучше, чем синтаксический анализ html, а затем обходит его в поисках нужных слов ...

Анализатор HTML для поиска по фразе и регистру в Java

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Анализатор HTML для поиска по фразе и регистру в Java

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы