У меня работает Lucene / Solr 4 для тестирования различных функций, а также "кластеризации".
В настоящее время проиндексировано 1 миллион документов. Каждый документ имеет следующие поля:
ID (unique Key) Example1: 10245
Example2: 24974
TOPIC (Keywords of the document) Example1: "disaster/japan/nuclear power station"
Example2: "world/japan/nuclear power"
HEADLINE (1 line of text): Example1: "explosion at nuclear power plant in japan"
Example2: "news about japans nuclear power plant"
TEXT (the full text): "In the Japanese nuclear power plant in Fukushima..."
Все поля проиндексированы и сохранены, кроме TEXT, который только проиндексирован, но не сохранен.
Я использую следующую конкретную конфигурацию:
<str name="carrot.title">TOPIC</str>
<str name="carrot.snippet">HEADLINE</str>
Если вы посмотрите пример, вы увидите, что ТЕМА отличается, но Япония - то же самое. Можно ли настроить solr / carrot таким образом, чтобы example1 и example2 были в одном кластере? Из-за совпадения "япония"?!
Кроме того, может быть третья тема, такая как "новости / ядерная энергетика", внутри не должно быть "японии", но HEADLINE и TEXT используют слова: электростанция в Японии. Какая конфигурация solr / carrot необходима для получения этих 3 новостей в одном кластере?
Спасибо!