Запутывает специальные символы в упругом поиске - PullRequest
0 голосов
/ 20 декабря 2018

Я хочу понять, почему некоторые специальные символы удаляются при создании токенов из заданной строки в упругом поиске с использованием стандартного анализатора.

Я использовал API-интерфейс _analyse, чтобы узнать, как разбивается заданная случайная строкадо «токенов» по ​​«стандарту» в качестве «анализатора»

Вот некоторые из случайных строк, которые я использовал при анализе:

1)."Sample.doc" -> "Sample.doc"

2)."Sample..doc" -> "Sample", "doc" (почему создаются два токена, он должен работать так же, как в примере выше)

3)."Sample1.doc" -> "Sample1", "doc" (почему здесь (.) Экранируется)

4)."Sample \ 1.doc" -> "Sample", "1", "doc" (здесь я пробовал экранировать символы "1", но это токенизатор по-другому)

Насколько я понимаю, упругий поискэкранирует зарезервированные символы, указанные в ссылке: - https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl-query-string-query.html#_reserved_characters

5)."Sample \ (. Doc" -> Ошибка в консоли kibana (это правильный способ экранирования символов, поскольку я проделал то же самое в примере 4, и это сработало)

Я действительно хочу понять, как и какие символыудален или сбежал во время токенизации. Я что-то упустил или что?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...