Я настраиваю поисковую систему Solr, которая будет индексировать несколько языков. Я создал пользовательский UpdateProcessorFactory, чтобы выяснить, какие разделы входного текста и на каком языке, и затем я копирую эти разделы документа в специфичные для языка поля. Например, с этим текстом:
"Hello World, Bonjour le Monde, Hallo Welt."
Копирует «Hello World» в текстовое поле, «Bonjour le Monde» в текстовое поле и «Hallo Welt» в текстовое поле. Каждое поле имеет соответствующие анализаторы языка для токенизации и определения слов.
В конце я хотел бы, чтобы у пользователя было одно поле для ввода поисковых терминов, которые будут искать на всех языках. Поисковые термины не нужно переводить, но они должны быть определены соответствующим образом. Каков наилучший способ сделать это? Я также очень обеспокоен производительностью поисков.