Как обрабатывать Solr сходство всей базы данных индекса - PullRequest
0 голосов
/ 11 марта 2012

Как я могу найти 20 документов, которые:

  • очень похожи друг на друга как по содержанию
  • меньше сходства друг с другом, как по содержанию

1 Ответ

2 голосов
/ 11 марта 2012

Solr MoreLikeThis функция может помочь вам получить документы, похожие по содержанию. Сходство основано на частых терминах, встречающихся в документе.
Коллекция запрашивает эти условия для получения аналогичных документов.

Если вы хотите группировать документы, вам понадобятся другие инструменты для кластеризации документов. Вы можете проверить Apache Mahout для кластеризации.
Это объединит документы в группы с использованием подхода TD / IDF.

...