Я хочу понять, почему некоторые специальные символы удаляются при создании токенов из заданной строки в упругом поиске с использованием стандартного анализатора.
Я использовал API-интерфейс _analyse, чтобы узнать, как разбивается заданная случайная строкадо «токенов» по «стандарту» в качестве «анализатора»
Вот некоторые из случайных строк, которые я использовал при анализе:
1)."Sample.doc" -> "Sample.doc"
2)."Sample..doc" -> "Sample", "doc" (почему создаются два токена, он должен работать так же, как в примере выше)
3)."Sample1.doc" -> "Sample1", "doc" (почему здесь (.) Экранируется)
4)."Sample \ 1.doc" -> "Sample", "1", "doc" (здесь я пробовал экранировать символы "1", но это токенизатор по-другому)
Насколько я понимаю, упругий поискэкранирует зарезервированные символы, указанные в ссылке: - https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl-query-string-query.html#_reserved_characters
5)."Sample \ (. Doc" -> Ошибка в консоли kibana (это правильный способ экранирования символов, поскольку я проделал то же самое в примере 4, и это сработало)
Я действительно хочу понять, как и какие символыудален или сбежал во время токенизации. Я что-то упустил или что?