Расчет косинусного сходства в mahout - PullRequest
1 голос
/ 05 января 2012

Чтобы найти сходство между двумя документами, я планирую принять использование mahout для выполнения этой задачи.

Процесс будет включать:

  1. преобразование документа в TF-IDF
  2. Удаление стоп-слов (делает поиск эффективным)
  3. Запустить косинусное сходство
  4. Дайте степень сходства

Я планирую реализовать это в mahout. Я новичок в mahout, может кто-нибудь помочь мне с несколькими учебниками, чтобы выполнить это и сказать мне, если это эффективное средство для расчета сходства между документами

1 Ответ

2 голосов
/ 05 января 2012

Вам не нужно ничего реализовывать. Используйте seqdirectory и seq2sparse для векторизации ваших данных. После этого вы можете использовать RowS SimilarityJob для вычисления парных косинусных сходств.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...