Повторно использовать встроенные языковые фильтры? - PullRequest
0 голосов
/ 10 января 2019

Я видел вопрос здесь , который показывает, как можно создать собственный анализатор, чтобы иметь как поддержку синонимов, так и поддержку языков.

Однако, похоже, он также создает свою собственную коллекцию стеммеров и стоп-слов.

Что если я хочу добавить синонимы к встроенному анализатору "danish"? Могу ли я сослаться на встроенный датский стеммер и фильтр стоп-слов? Как пример, это просто называется danish_stemmer и danish_stopwords?

Возможно, поможет список встроенных фильтров - где я могу увидеть названия этих встроенных фильтров?

1 Ответ

0 голосов
/ 11 января 2019

Для каждого встроенного языкового анализатора есть пример того, как его перестроить. Для danish есть такой пример:

PUT /danish_example
{
  "settings": {
    "analysis": {
      "filter": {
        "danish_stop": {
          "type":       "stop",
          "stopwords":  "_danish_" 
        },
        "danish_keywords": {
          "type":       "keyword_marker",
          "keywords":   ["eksempel"] 
        },
        "danish_stemmer": {
          "type":       "stemmer",
          "language":   "danish"
        }
      },
      "analyzer": {
        "rebuilt_danish": {
          "tokenizer":  "standard",
          "filter": [
            "lowercase",
            "danish_stop",
            "danish_keywords",
            "danish_stemmer"
          ]
        }
      }
    }
  }
}

Это, по сути, создание собственного пользовательского анализатора .

Список доступных стеммеров можно найти здесь . Список доступных предварительно составленных списков стоп-слов можно найти здесь .

Надеюсь, это поможет!

...