Многоязычные поля и поиск в ElasticSearch - PullRequest
0 голосов
/ 17 июня 2020

В моем случае использования для индексации документов в ElasticSearch большая часть текста представляет собой смесь (как минимум) двух языков. Поле может состоять из одного или двух предложений, но будет на азиатском языке с добавлением английского sh.

Я просмотрел ElasticSearch блог , но стратегия заключается в том, чтобы определить язык и использовать соответствующий анализатор для этого языка. В моем случае, поскольку текст смешанный, основной текст может быть идентифицирован как один язык (например, японский), но смешанный текст на английском языке sh также передается анализатору, используемому для японского языка, и не токенизируется должным образом.

Одна из идей состоит в том, чтобы пропустить все символы sh английского языка (используя Unicode) и обработать их как другое поле. Будут ли здесь проблемы с потерей контекста?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...