Извлечение именованных групп из токенизатора Elasticsearch Pattern - PullRequest
0 голосов
/ 21 апреля 2020

Я пытаюсь использовать токенайзер Pattern Elasticsearch для создания анализатора.

Вот пример того, что у меня есть:

  {
"settings": {
  "analysis": {
    "analyzer": {
      "my_analyzer": {
        "tokenizer": "my_tokenizer"
      }
    },
    "tokenizer": {
      "my_tokenizer": {
        "type": "pattern",
        "pattern": "(?<commentstart><!--)|(?<commentend>-->)|(?<url>((bitcoin|geo|magnet|mailto|news|sips?|tel|urn)\\:|((|ftp|ftps|git|gopher|https?|ircs?|mms|nntp|redis|sftp|ssh|svn|telnet|worldwind|xmpp)\\:)?\/\/)[^\\s/$.?#].[^\\s]*)|(?<entity>&[a-z][a-z0-9]*;)",
        "group": 0
      }
    }
  }
}

}

Это работает отлично получаю шаблоны которые я хочу. Однако мне также нужно получить именованные группы из соответствующего регулярного выражения.

Например, чтобы получить commentstart именованную группу при совпадении токена <!--.

Кажется, я не могу найти способ go об этом.

...