объединить выходные данные первого фильтра в качестве входных данных второго фильтра - PullRequest
4 голосов
/ 26 февраля 2020

У нас есть экземплярasticsearch с записями с двумя теговыми полями.

  • sessionid
  • message

В первом фильтре я нахожу все записи, где сообщение содержит определенную подстроку. Каждая из этих записей содержит sessionid ,

. Во втором фильтре я хочу найти все сообщения, где sessionid соответствует одному из идентификаторов сеансов, возвращаемых первым. фильтр. Этот фильтр должен go через все записи во второй раз.

Пример, в журнале ниже (sessionid; сообщение)

1234;miss 1
2456;miss 2
1234;match

При фильтрации по строке "match" в сообщении часть, я бы получил в качестве результата комбинированного запроса:

1234;miss 1
1234;match

Мы используем KQL.

Справочная информация: Мы хотим простой способ следить за полными потоками со строкой ошибки в сообщение, в многопоточной среде.

Ответы [ 2 ]

2 голосов
/ 04 марта 2020

Я понимаю, почему вы хотите сделать это за один go, но в ElasticSearch это невозможно. Вы не можете «пересмотреть» документы, которые вы уже исключили другим запросом - поиск match дисквалифицирует все miss с.


К сожалению, у вас есть сообщение журнала, объединенное с идентификатор, но вы можете попробовать это:

  1. Найти все, что соответствует match (каламбур предназначен) - я предполагаю, что у вас есть поле keyword доступное
GET your_index/_search
{
  "query": {
    "regexp": {
      "separated_msg.keyword": ".*\\;match.*"
    }
  }
}

Постобработка совпадений и извлечение идентификаторов сеанса

Выполнение сопоставления идентификатора сеанса:

GET your_index/_search
{
  "query": {
    "regexp": {
      "separated_msg.keyword": "1234;.*"
    }
  }
}

или вкл. несколько идентификаторов с использованием bool should:

GET your_index/_search
{
  "query": {
    "bool": {
      "should": [
        {
          "regexp": {
            "separated_msg.keyword": "1234;.*"
          }
        },
        {
          "regexp": {
            "separated_msg.keyword": "4567;.*"
          }
        }
      ]
    }
  }
}
1 голос
/ 04 марта 2020

Если уникальное числовое значение c может быть назначено каждому сообщению, например, 1 для «совпадения», 2 для «пропуска 1», тогда можно использовать селектор сегмента и top_hits.

{
  "size": 0,
  "aggs": {
    "sessionid": {
      "terms": {
        "field": "sessionid",   --> first get all unique sessionids
        "size": 10
      },
      "aggs": {
        "documents":{
          "top_hits": {
            "size": 10
          }
        },
        "messageid": {
          "terms": {
            "field": "messageid",   ---> get unique sessionId
            "size": 10
          },
          "aggs": {
            "matching_messageid": {  ---> select a bucket with key(message Id) as 2
              "bucket_selector": {
                "buckets_path": {
                  "key": "_key"
                },
                "script": "params.key==2"
              }
            }
          }
        },
        "my_bucket": {
          "bucket_selector": {
            "buckets_path": {
              "hits": "messageid._bucket_count"
            },
            "script": "params.hits>0"--> if bucket not empty then consider that sessionid
          }
        }
      }
    }
  }
}

Результат

  "aggregations" : {
    "sessionid" : {
      "doc_count_error_upper_bound" : 0,
      "sum_other_doc_count" : 0,
      "buckets" : [
        {
          "key" : 1234,
          "doc_count" : 2,
          "documents" : {
            "hits" : {
              "total" : {
                "value" : 2,
                "relation" : "eq"
              },
              "max_score" : 1.0,
              "hits" : [
                {
                  "_index" : "index31",
                  "_type" : "_doc",
                  "_id" : "MTAYpnABheSAx2q_eNEF",
                  "_score" : 1.0,
                  "_source" : {
                    "sessionid" : 1234,
                    "message" : "miss 1",
                    "messageid" : 1
                  }
                },
                {
                  "_index" : "index31",
                  "_type" : "_doc",
                  "_id" : "MjAYpnABheSAx2q_n9FW",
                  "_score" : 1.0,
                  "_source" : {
                    "sessionid" : 1234,
                    "message" : "match",
                    "messageid" : 2
                  }
                }
              ]
            }
          },
          "messageid" : {
            "doc_count_error_upper_bound" : 0,
            "sum_other_doc_count" : 0,
            "buckets" : [
              {
                "key" : 2,
                "doc_count" : 1
              }
            ]
          }
        }
      ]
    }
  }

Если у данного сообщения есть метка времени (max / min), то max_path может использоваться для выбора сегментов с данными сообщениями.

Наилучшее Подход к вышеуказанной проблеме будет заключаться в использовании вложенных документов

{
   "sessionid":1234,
   "messages":[
                 {
                     "message":"match"
                 },
                 {
                     "message":"miss 1"
                 }
    ]
}
````
then the problem can be resolved by nested query. If logstash is used then above structure can generated while indexing. 

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...