Вы можете использовать HtmlUnit для анализа HTML-кода статьи и запроса частей документа, которые вас интересуют.Затем вы можете применить простой алгоритм вашего собственного дизайна для определения тегов / ключевых слов.
Как, например, split()
текст на пустом месте, а затем подсчитать, сколько раз встречается каждое слово.Слова, которые встречаются чаще всего (игнорируя такие слова, как «и», «the», «if» и т. Д.), Являются хорошими кандидатами в ключевые слова.