Java API: загрузка и вычисление tf-idf для данной веб-страницы - PullRequest
5 голосов
/ 14 февраля 2011

Я новичок в технике ИК.

Я ищу API на основе Java или инструмент, который делает следующее.

  1. Скачать данный набор URL
  2. Извлечение токенов
  3. Удалить стоп-слова
  4. Выполнить стемминг
  5. Создать перевернутый индекс
  6. Рассчитать TF-IDF

Пожалуйста, дайте мне знать, как Lucene может помочь мне.

С уважением Юви

Ответы [ 2 ]

4 голосов
/ 14 февраля 2011

Вы можете попробовать Word Vector Tool - прошло много времени с момента последнего выпуска, но здесь он работает отлично. Он должен быть в состоянии выполнить все шаги, которые вы упомянули. Однако я никогда не использовал часть гусеничного хода.

3 голосов
/ 14 февраля 2011

На самом деле, TF-IDF - это оценка, присваиваемая термину в документе, а не всему документу.Если вы просто хотите использовать TF-IDF для каждого термина в документе, возможно, используйте этот метод , не касаясь Lucene.Если вы хотите создать поисковую систему, вам нужно сделать немного больше (например, извлечь текст из заданных URL, чьи соответствующие документы, вероятно, не будут содержать необработанный текст).Если это так, рассмотрите возможность использования Solr .

...