Question

У меня есть сценарий, в котором я должен построить многоязычный индекс. специально для двух сценариев эти два сценария совершенно разные (хинди и английский). так что их стеммеры и лемматизаторы не влияют друг на друга. Моя индексация будет огромной, содержащей миллионы документов. из следующих 3 какой подход я использую для индексации? :

Одно поле для двух языков. Преимущество - а) поскольку скрипты разные, я могу использовать оба анализатора. б) более быстрый поиск, потому что поля будут ограничены. в) нужно будет позаботиться об актуальности вопроса.
Поля для определенного языка: a) возможно, поиск будет медленнее из-за большого количества полей.
многоядерный подход: а) проблема в работе с многоязычными документами. б) администрирование будет тяжелым. в) поиск по конкретному языку будет легким.

Marko Bonaci · Answer 1 · 13 января 2012

Предлагаю отдельные ядра. ИМХО, это просто правильный путь.

Вам не нужно использовать автоматическое распознавание языка Solr, поскольку вы определяете анализаторы (лемматизаторы / стеммеры) для каждого ядра / языка отдельно. Недостатком только являются элементы конфигурации шаблона (большинство настроек одинаковы для обоих ядер).

Смотрите этот недавний, похожий пост:

Динамическое применение языкового анализатора перед индексированием Solr

Fuxi · Answer 2 · 13 января 2012

Пожалуйста, прочитайте, что: Многоязычный поиск Apache Solr , это должно помочь. Если бы вы поняли, я бы выбрал вариант 2 (я использую этот вариант).

Подход к индексации Solr

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Подход к индексации Solr

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы