В моем случае использования для индексации документов в ElasticSearch большая часть текста представляет собой смесь (как минимум) двух языков. Поле может состоять из одного или двух предложений, но будет на азиатском языке с добавлением английского sh.
Я просмотрел ElasticSearch блог , но стратегия заключается в том, чтобы определить язык и использовать соответствующий анализатор для этого языка. В моем случае, поскольку текст смешанный, основной текст может быть идентифицирован как один язык (например, японский), но смешанный текст на английском языке sh также передается анализатору, используемому для японского языка, и не токенизируется должным образом.
Одна из идей состоит в том, чтобы пропустить все символы sh английского языка (используя Unicode) и обработать их как другое поле. Будут ли здесь проблемы с потерей контекста?