Дефис в ребре N-грамм для эластичного поиска - PullRequest
0 голосов
/ 11 декабря 2018

Мне нужно сделать автозаполнение в тексте, который содержит французские слова с дефисом, например "электронная коммерция".

Поэтому я использую edge_ngram для токенизации своих слов.

Но когда я ищу«e-comme» токенизатор разделил мой поиск на два слова.И поскольку я установил для min_gram значение 3, токен «e» был удален.

Итак, я получаю токены тезисов:

{
"tokens": [
    {
        "token": "com",
        "start_offset": 3,
        "end_offset": 6,
        "type": "word",
        "position": 0
    },
    {
        "token": "comm",
        "start_offset": 3,
        "end_offset": 7,
        "type": "word",
        "position": 1
    },
    {
        "token": "comme",
        "start_offset": 3,
        "end_offset": 8,
        "type": "word",
        "position": 2
    }
]

}

Есть ли в любом случаесказать токенизатору, чтобы слова не разделялись на дефис?

Заранее спасибо.

...