Подход к индексации Solr - PullRequest
1 голос
/ 13 января 2012

У меня есть сценарий, в котором я должен построить многоязычный индекс. специально для двух сценариев эти два сценария совершенно разные (хинди и английский). так что их стеммеры и лемматизаторы не влияют друг на друга. Моя индексация будет огромной, содержащей миллионы документов. из следующих 3 какой подход я использую для индексации? :

  1. Одно поле для двух языков. Преимущество - а) поскольку скрипты разные, я могу использовать оба анализатора. б) более быстрый поиск, потому что поля будут ограничены. в) нужно будет позаботиться об актуальности вопроса.

  2. Поля для определенного языка: a) возможно, поиск будет медленнее из-за большого количества полей.

  3. многоядерный подход: а) проблема в работе с многоязычными документами. б) администрирование будет тяжелым. в) поиск по конкретному языку будет легким.

Ответы [ 2 ]

1 голос
/ 13 января 2012

Предлагаю отдельные ядра. ИМХО, это просто правильный путь.

Вам не нужно использовать автоматическое распознавание языка Solr, поскольку вы определяете анализаторы (лемматизаторы / стеммеры) для каждого ядра / языка отдельно. Недостатком только являются элементы конфигурации шаблона (большинство настроек одинаковы для обоих ядер).

Смотрите этот недавний, похожий пост:

Динамическое применение языкового анализатора перед индексированием Solr

1 голос
/ 13 января 2012

Пожалуйста, прочитайте, что: Многоязычный поиск Apache Solr , это должно помочь. Если бы вы поняли, я бы выбрал вариант 2 (я использую этот вариант).

...