У меня есть сценарий, в котором я должен построить многоязычный индекс. специально для двух сценариев эти два сценария совершенно разные (хинди и английский). так что их стеммеры и лемматизаторы не влияют друг на друга. Моя индексация будет огромной, содержащей миллионы документов.
из следующих 3 какой подход я использую для индексации? :
Одно поле для двух языков.
Преимущество - а) поскольку скрипты разные, я могу использовать оба анализатора. б) более быстрый поиск, потому что поля будут ограничены. в) нужно будет позаботиться об актуальности вопроса.
Поля для определенного языка: a) возможно, поиск будет медленнее из-за большого количества полей.
многоядерный подход: а) проблема в работе с многоязычными документами. б) администрирование будет тяжелым. в) поиск по конкретному языку будет легким.