Чтобы найти сходство между двумя документами, я планирую принять использование mahout для выполнения этой задачи.
Процесс будет включать:
- преобразование документа в TF-IDF
- Удаление стоп-слов (делает поиск эффективным)
- Запустить косинусное сходство
- Дайте степень сходства
Я планирую реализовать это в mahout. Я новичок в mahout, может кто-нибудь помочь мне с несколькими учебниками, чтобы выполнить это и сказать мне, если это эффективное средство для расчета сходства между документами