ElasticSearch - сравнивает различные значения за два периода времени - PullRequest
1 голос
/ 23 апреля 2020

Борьба со следующей проблемой - у меня есть огромный набор данных в ElasticSearch, и я хочу сравнить различные идентификаторы за два периода времени.

Вот простой пример, чтобы вы лучше поняли, что я имею в виду: следующие данные были отправлены за последние 24 часа:

{id: 1}, {id: 2}, {id: 3}

и эти данные были отправлены в течение 24 часов в неделю a go:

{id: 2}, {id: 3}, {id: 4}

Я хочу вывести:

1, 4

Идеи?

1 Ответ

1 голос
/ 23 апреля 2020

Агрегация селектора блоков может использоваться для выбора полей, которые присутствуют в одном интервале, но не в другом

Я взял набор данных из трех документов с уникальными идентификаторами 1 и 2. Идентификатор 1 присутствует в датах «2020-04-22» и «2020-04-23», тогда как Идентификатор 2 присутствует только в «2020-04-23». Таким образом, запрос должен возвращать только Id 2

Данные:

"hits" : [
      {
        "_index" : "index21",
        "_type" : "_doc",
        "_id" : "N48Xp3EB1jFeu7E5np_U",
        "_score" : 1.0,
        "_source" : {
          "id" : 1,
          "date" : "2020-04-23"
        }
      },
      {
        "_index" : "index21",
        "_type" : "_doc",
        "_id" : "OI8Xp3EB1jFeu7E5z5-5",
        "_score" : 1.0,
        "_source" : {
          "id" : 1,
          "date" : "2020-04-22"
        }
      },
      {
        "_index" : "index21",
        "_type" : "_doc",
        "_id" : "OY8Yp3EB1jFeu7E5GJ_V",
        "_score" : 1.0,
        "_source" : {
          "id" : 2,
          "date" : "2020-04-23"
        }
      }
    ]

Используя агрегирование терминов получить все уникальные идентификаторы. Под каждым термином найдите количество документов в разных интервалах. Выберите термины, в каждом из которых есть 0.

 Terms      1
              "2020-04-22"  1(doc count)
              "2020-04-23"  1(doc count)
            2 
              "2020-04-22"  0(doc count)    
              "2020-04-23"  1(doc count)

  Select term 2

Запрос:

{
  "size": 0,
  "aggs": {
    "ids": {
      "terms": {
        "field": "id",
        "size": 10
      },
      "aggs": {
        "document_first_interval": {
          "filter": {
            "range": {
              "date": {
                "gte": "2020-04-23"
              }
            }
          }
        },
        "document_second_interval": {
          "filter": {
            "range": {
              "date": {
                "gte": "2020-04-22",
                "lt": "2020-04-23"
              }
            }
          }
        },
        "select_bucket": {
          "bucket_selector": {
            "buckets_path": {
              "first_interval": "document_first_interval._count",
              "second_interval": "document_second_interval._count"
            },
            "script": "if(params.first_interval==0||params.second_interval==0) return true;"
          }
        }
      }
    }
  }
}
````

<b>Result:</b>
````
"aggregations" : {
    "ids" : {
      "doc_count_error_upper_bound" : 0,
      "sum_other_doc_count" : 0,
      "buckets" : [
        {
          "key" : 2,
          "doc_count" : 1,
          "document_second_interval" : {
            "doc_count" : 0
          },
          "document_first_interval" : {
            "doc_count" : 1
          }
        }
      ]
    }
  }

````
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...