Волшебной пули нет.Если вы знаете язык вводимых текстов, вы можете хранить языки в разных полях и использовать разные основы в зависимости от языка.Или вы могли бы избежать стеммеров и вместо этого использовать нграммы.
Если вы продолжаете использовать стоп-слова и защищенные слова, вам нужно будет отредактировать их, чтобы они не были слишком агрессивными.Например, «is» и «by» являются стоп-словами в английском языке, но они означают «лед» и «город» во многих скандинавских языках.Поэтому вы бы удалили их из стоп-слов, но, возможно, захотите добавить «je» и «il», потому что это французские стоп-слова.Но «je» имеет разные значения в таких языках, как нидерландский и сербский, поэтому, возможно, нет ...
Начните с обрезания цепочки токенизаторов, анализаторов, фильтров, а затем проведите некоторое тестирование с людьми, которые свободно говорят на другихязыки.Пусть они покажут вам странные результаты и объяснят, почему они странные.И посмотрите на восточные языки, потому что нграммы - единственный способ справиться с ними.