инструменты Java для извлечения соответствующих ключевых слов / тегов из статей - PullRequest
2 голосов
/ 27 ноября 2011

Я ищу инструменты на основе Java для извлечения соответствующих тегов из данной статьи. Мне нужен инструмент, который будет в основном пытаться определить, с какими основными предметами и терминами связана данная статья. Спасибо за помощь.

Ответы [ 2 ]

3 голосов
/ 07 декабря 2011

Проверьте следующие ключевые слова / программы / инструменты для извлечения тем:

  • Kea - извлечение ключевых слов
  • Tmt - Stanfordинструментарий для определения тем (интеграция с Excel, скрипты, написанные на Scala), он поддерживает полуавтоматический режим обнаружения тем (с отзывами пользователей).
  • maui

Если вы хотите разработать собственную систему определения темы, вам следует взглянуть на реализацию LDA в молотке (ссылка на рабочий образец LDA, та, что на домашней странице молотка, не работает с новейшей Маллет версия).

1 голос
/ 27 ноября 2011

Вы можете использовать HtmlUnit для анализа HTML-кода статьи и запроса частей документа, которые вас интересуют.Затем вы можете применить простой алгоритм вашего собственного дизайна для определения тегов / ключевых слов.

Как, например, split() текст на пустом месте, а затем подсчитать, сколько раз встречается каждое слово.Слова, которые встречаются чаще всего (игнорируя такие слова, как «и», «the», «if» и т. Д.), Являются хорошими кандидатами в ключевые слова.

...