Кластер Carrot2 на нескольких аргументах - PullRequest
0 голосов
/ 12 июля 2011

Привет,

Я работаю над SearchEngine, который использует Solr и Carrot2.

Все хорошо, но Carrot делает странную вещь, в которой я не могу понять.Я хочу получить результаты от Solr и сгруппировать их, используя морковь.Я интегрировал все, и это работает хорошо, но Морковь группируется только на одном из моих атрибутов.Тот, который соответствует результату, а не другой атрибут.Как:

Данные

имя: Питер город: Лондон хобби: гольф, катание на лыжах

имя: Артур город: Берлин хобби: гольф, велосипед

имя: Париж город: Лондон Хобби: гольф, туризм

Поиск: гольф

Как кластер: катание на лыжах на велосипеде

.. но не Лондон.

Этоя бы не отказался от этого, но когда я использую CarrotClusteringWorkbench, он объединяет другие аргументы.

Сначала я попытался экспортировать конфигурации из рабочей среды в Solrconfig, но ничего не изменилось.Solr использует конфиги, но никто из них ничего не меняет в этом вопросе.

Кто-нибудь может мне помочь или объяснить это?

1 Ответ

0 голосов
/ 14 июля 2011

Вам необходимо поместить имена полей для кластеризации в ваш файл solrconfig.xml.Чтобы реплицировать конфигурацию, которая работала для вас в Carrot2 Clustering Workbench, поместите их в обработчик запросов кластеризации (или укажите в URL-адресе запроса):

<!-- In Workbench this is "Title field name" -->
<str name="carrot.title">name</str>

<!-- In Workbench this is "Summary field name" -->
<str name="carrot.snippet">features</str>

В целом, Carrot2 лучше всего работает с естественным / неструктурированным текстом,такие как результаты поиска, рефераты документов или содержание.Если ваши поля содержат строки, обозначающие некоторые структурированные данные, кластеры, вероятно, будут далеки от того, что вы ожидаете (и от того, что мог бы создать выделенный алгоритм кластеризации).

...