Я пытаюсь использовать токенайзер Pattern Elasticsearch для создания анализатора.
Вот пример того, что у меня есть:
{
"settings": {
"analysis": {
"analyzer": {
"my_analyzer": {
"tokenizer": "my_tokenizer"
}
},
"tokenizer": {
"my_tokenizer": {
"type": "pattern",
"pattern": "(?<commentstart><!--)|(?<commentend>-->)|(?<url>((bitcoin|geo|magnet|mailto|news|sips?|tel|urn)\\:|((|ftp|ftps|git|gopher|https?|ircs?|mms|nntp|redis|sftp|ssh|svn|telnet|worldwind|xmpp)\\:)?\/\/)[^\\s/$.?#].[^\\s]*)|(?<entity>&[a-z][a-z0-9]*;)",
"group": 0
}
}
}
}
}
Это работает отлично получаю шаблоны которые я хочу. Однако мне также нужно получить именованные группы из соответствующего регулярного выражения.
Например, чтобы получить commentstart
именованную группу при совпадении токена <!--
.
Кажется, я не могу найти способ go об этом.