Как использовать разные фильтры токенов для разных языков в Elasticsearch - PullRequest
0 голосов
/ 10 апреля 2019

У меня есть и английские и немецкие документы в моей базе данныхasticsearch.Я хотел бы включить stemming для обоих языков.Но я не знаю, как определить разные языки для определения основ в зависимости от языка контента.

Вот пример, как это сделать, если в базе данных только один язык: https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-stemmer-tokenfilter.html

Я думал о том, чтобы объединить поля со смешанным языком и фильтры-основы: https://www.elastic.co/guide/en/elasticsearch/guide/current/mixed-lang-fields.html

Однако мне не удалось это сделать.

Мои документы выглядят так: { ..... ..... ..... "_source" : { .... "language" : "de", .... "content" : "", .... } }

Я сократил структуру JSON до соответствующих полей.

На языке полей вы можете видеть язык содержимого (либо de, либо en), а в поле содержимого вы можете видетьсодержимое, которое должно быть основано.

Я ожидаю запрос, который разрешит использование стволов для разных языков.Буду очень признателен, если кто-нибудь сможет мне помочь с этим.

...