Понимание результатов агрегации в ElasticSearch - PullRequest
0 голосов
/ 16 ноября 2018

Я работаю над конкретным запросом в ElasticSearch.Цель запроса - вернуть все уникальные результаты с последними отметками времени.Так что просто для фона, в базе данныхasticsearch, может быть несколько записей для каждого из этих уникальных полей «x» с разными временными метками.Я хочу, чтобы запрос ES возвращал последние метки времени для каждого из этих уникальных полей x.Таким образом, данные выглядят как в базе данных ES:

{"x" : "1", "time": 1536574915}
{"x" : "2", "time": 1536574919}
{"x" : "1", "time": 1536574815}
{"x" : "2", "time": 1536574819}
{"x" : "3", "time": 1536574915}
{"x" : "4", "time": 1536574915}

Ожидаемый результат -

{"x" : "1", "time": 1536574915}
{"x" : "2", "time": 1536574919}
{"x" : "3", "time": 1536574915}
{"x" : "4", "time": 1536574915}

В настоящее время я использую запрос:

{
            "size": 0,
            "query": {
                "bool": {
                    "must": [],
                    "filter": {
                        "range": {
                            "time": {
                                "lte": "2019-11-16", Can give epoch conversion here
                                "format": "date_optional_time"
                                }
                            }
                        }
                    }
                },
            "aggs": {
                "group_by": {
                 "terms": {
                        "field": "x"
                        },
                    "aggs": {
                        "resource": {
                            "terms": {
                                "field": "time",
                                "size": 1,
                                "order": {
                                    "_key": "desc"
                                }

                            },

                            "aggs": {
                                "include_source": {
                                    "top_hits": {
                                        "from": 0,
                                        "size": 1,
                                        "_source": {}
                                    }
                                }
                            }
                        }
                    }
                }
            }
        }

Результаты, которыеполучить возвращено по вышеуказанному запросу имеют

[
    {
        "_scroll_id": "DnF1ZXJ5VGhlbkZldGNoAgAAAAAAAAECFmtnNUY4dHFKUXVldXdQMkNSaE1femcAAAAAAAABAxZrZzVGOHRxSlF1ZXV3UDJDUmhNX3pn",
        "took": 227,
        "timed_out": false,
        "_shards": {
            "total": 2,
            "successful": 2,
            "skipped": 0,
            "failed": 0
        },
        "hits": {
            "total": 343533,
            "max_score": 0.0,
            "hits": [
                {
                }
            ]
},
   "aggregations": {
                "group_by": {
                    "doc_count_error_upper_bound": 4,
                    "sum_other_doc_count": 343513,
                    "buckets": [
                  { # here is the actual data.
                  }
           ]
        }
      }
    },
    {
       #another scroll_id. Removed the data as its huge.
   }
]

Мой вопрос: где уникальные результаты присутствуют в приведенном выше случае?это в пределах [хитов] [хитов] или они в «агрегации»?если в агрегации, для миллиона записей агрегация возвращает мне только 10 результатов.и если я полагаюсь на [попадания] [попадания] из каждого списка прокрутки, то результаты повторяются.Я пытаюсь понять, какую часть этого результата я могу получить правильные уникальные записи на основе моего выше ограничения запроса.Или запрос сформирован неправильно или отсутствует какой-либо параметр.Ценю любую помощь.Спасибо.

1 Ответ

0 голосов
/ 16 ноября 2018

Ваша агрегация неверна, так как вы получаете самые высокие попадания для каждого x и time, в то время как ваша цель - получить последнее попадание для каждого x. Вам нужно изменить свой запрос, как показано ниже, то есть вы агрегируете только по x, а в вашей субагрегации top_hits вы сортируете документы, уменьшая time и берете только последний.

{
  "size": 0,
  "aggs": {
    "group_by": {
      "terms": {
        "field": "x"
      },
      "aggs": {
        "resource": {
          "top_hits": {
            "from": 0,
            "size": 1,
            "sort": {
              "time": "desc"
            },
            "_source": {}
          }
        }
      }
    }
  }
}

Документы, которые вы ищете, находятся в разделе resource.hits.hits каждого из ваших ведер:

  "aggregations" : {
    "group_by" : {
      "doc_count_error_upper_bound" : 0,
      "sum_other_doc_count" : 0,
      "buckets" : [
        {
          "key" : "1",
          "doc_count" : 2,
          "resource" : {
            "hits" : {
              "total" : 2,
              "max_score" : null,
              "hits" : [
                {
                  "_index" : "times",
                  "_type" : "doc",
                  "_id" : "PZt7G2cBJos57mIu0oy-",
                  "_score" : null,
                  "_source" : {
                    "x" : "1",
                    "time" : 1536574915
                  },
                  "sort" : [
                    1536574915
                  ]
                }
              ]
            }
          }
        },
        {
          "key" : "2",
          "doc_count" : 2,
          "resource" : {
            "hits" : {
              "total" : 2,
              "max_score" : null,
              "hits" : [
                {
                  "_index" : "times",
                  "_type" : "doc",
                  "_id" : "Ppt7G2cBJos57mIu0oy-",
                  "_score" : null,
                  "_source" : {
                    "x" : "2",
                    "time" : 1536574919
                  },
                  "sort" : [
                    1536574919
                  ]
                }
              ]
            }
          }
        },
        {
          "key" : "3",
          "doc_count" : 1,
          "resource" : {
            "hits" : {
              "total" : 1,
              "max_score" : null,
              "hits" : [
                {
                  "_index" : "times",
                  "_type" : "doc",
                  "_id" : "QZt7G2cBJos57mIu0oy-",
                  "_score" : null,
                  "_source" : {
                    "x" : "3",
                    "time" : 1536574915
                  },
                  "sort" : [
                    1536574915
                  ]
                }
              ]
            }
          }
        },
        {
          "key" : "4",
          "doc_count" : 1,
          "resource" : {
            "hits" : {
              "total" : 1,
              "max_score" : null,
              "hits" : [
                {
                  "_index" : "times",
                  "_type" : "doc",
                  "_id" : "Qpt7G2cBJos57mIu0oy-",
                  "_score" : null,
                  "_source" : {
                    "x" : "4",
                    "time" : 1536574915
                  },
                  "sort" : [
                    1536574915
                  ]
                }
              ]
            }
          }
        }
      ]
    }
  }
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...