Вы почти у цели, требуется лишь небольшое изменение. используйте токенизатор standard
, который уже разбивает текст на ,
и html_strip
, который удаляет br
или любые другие HTML теги.
Требуемые настройки анализатора
{
"settings": {
"analysis": {
"analyzer": {
"separate_values": {
"type": "custom",
"tokenizer": "standard", --> note this
"char_filter": [
"html_strip" --> note this
],
"filter": [
"lowercase",
"trim"
]
}
}
}
}
}
Создано жетоны
{
"text": "dog<br>cat, mouse",
"analyzer": "separate_values"
}
{
"tokens": [
{
"token": "dog",
"start_offset": 0,
"end_offset": 3,
"type": "<ALPHANUM>",
"position": 0
},
{
"token": "cat",
"start_offset": 7,
"end_offset": 10,
"type": "<ALPHANUM>",
"position": 1
},
{
"token": "mouse",
"start_offset": 12,
"end_offset": 17,
"type": "<ALPHANUM>",
"position": 2
}
]
}