Question

Я пытаюсь использовать токенайзер Pattern Elasticsearch для создания анализатора.

Вот пример того, что у меня есть:

  {
"settings": {
  "analysis": {
    "analyzer": {
      "my_analyzer": {
        "tokenizer": "my_tokenizer"
      }
    },
    "tokenizer": {
      "my_tokenizer": {
        "type": "pattern",
        "pattern": "(?<commentstart><!--)|(?<commentend>-->)|(?<url>((bitcoin|geo|magnet|mailto|news|sips?|tel|urn)\\:|((|ftp|ftps|git|gopher|https?|ircs?|mms|nntp|redis|sftp|ssh|svn|telnet|worldwind|xmpp)\\:)?\/\/)[^\\s/$.?#].[^\\s]*)|(?<entity>&[a-z][a-z0-9]*;)",
        "group": 0
      }
    }
  }
}

}

Это работает отлично получаю шаблоны которые я хочу. Однако мне также нужно получить именованные группы из соответствующего регулярного выражения.

Например, чтобы получить commentstart именованную группу при совпадении токена <!--.

Кажется, я не могу найти способ go об этом.

Извлечение именованных групп из токенизатора Elasticsearch Pattern

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Извлечение именованных групп из токенизатора Elasticsearch Pattern

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы