что такое компонент кластера solr - PullRequest
5 голосов
/ 29 июня 2011

Я только что прошел страницу Solr Wiki для кластеризации. Но я не понимаю, какая польза от кластеризации. Может кто-нибудь сказать мне, что на самом деле подсказывает и как его использовать при индексации и поиске.

Пожалуйста, ответьте

1 Ответ

10 голосов
/ 29 июня 2011

Кластеризация - это статистический метод, позволяющий группировать данные в группы, «которые принадлежат друг другу».В частности, в Solr это означает, что он попытается сгруппировать результаты для определенного запроса и пометить эти группы.

Это может дать вам дополнительную информацию о характере возвращаемых результатов.Пример: если вы ищете «Python» в очень широком наборе документов, компонент кластеризации может создать группы для «языка программирования Python», «Python the snake» и т. Д.

Посмотрите наДемонстрационный сайт Carrot2 для демонстрации: (Carrot2 - это механизм кластеризации, поставляемый с Solr)

http://search.carrot2.org/stable/search

Компоненты кластеризации Solr (Carrot2) группируют документы с использованием текстовых полей, возвращаемых Solrв списке результатов.(Используемые поля являются настраиваемыми.) Он использует термины в текстовом поле, чтобы построить кластеры и пометить их.

На сайте Carrot2 есть очень интересная презентация:

http://project.carrot2.org/publications/carrot2-dresden-2007.pdf

...