Мне нужно сделать автозаполнение в тексте, который содержит французские слова с дефисом, например "электронная коммерция".
Поэтому я использую edge_ngram для токенизации своих слов.
Но когда я ищу«e-comme» токенизатор разделил мой поиск на два слова.И поскольку я установил для min_gram значение 3, токен «e» был удален.
Итак, я получаю токены тезисов:
{
"tokens": [
{
"token": "com",
"start_offset": 3,
"end_offset": 6,
"type": "word",
"position": 0
},
{
"token": "comm",
"start_offset": 3,
"end_offset": 7,
"type": "word",
"position": 1
},
{
"token": "comme",
"start_offset": 3,
"end_offset": 8,
"type": "word",
"position": 2
}
]
}
Есть ли в любом случаесказать токенизатору, чтобы слова не разделялись на дефис?
Заранее спасибо.