Elasticsearch запрос с группировкой - PullRequest
2 голосов
/ 10 марта 2020

У меня есть база данных с продуктами. Каждый продукт состоит из полей: uuid, group_id, title, since, till.

since и till определяют интервал доступности.

Интервалы [since, till] являются непересекающимися парами для каждого group_id. Таким образом, в пределах одной группы нет двух товаров, для которых пересекаются интервалы.

Мне нужно получить список товаров, удовлетворяющих следующим условиям:

  1. в списке должно быть не более 1 продукт из каждой группы
  2. каждый продукт соответствует указанному названию
  3. каждый продукт является текущим (так как <= NOW <= till) ИЛИ, если текущий продукт не существует в своей группе, он должен быть ближайший продукт из будущего (мин. (с)), так как с> = NOW)

ES mapping:

{
    "products": {
        "mappings": {
            "dynamic": "false",
            "properties": {
                "group_id": {
                    "type": "long",
                    "fields": {
                        "keyword": {
                            "type": "keyword",
                            "ignore_above": 256
                        }
                    }
                },
                "title": {
                    "type": "text",
                    "fields": {
                        "keyword": {
                            "type": "keyword",
                            "ignore_above": 256
                        }
                    }
                },
                "since": {
                    "type": "date",
                    "fields": {
                        "keyword": {
                            "type": "keyword",
                            "ignore_above": 256
                        }
                    }
                },
                "till": {
                    "type": "date",
                    "fields": {
                        "keyword": {
                            "type": "keyword",
                            "ignore_above": 256
                        }
                    }
                }
            }
        }
    }
}

Можно ли создать такой запрос в Elasticsearch?

1 Ответ

2 голосов
/ 11 марта 2020

Глядя на ваше сопоставление, я создал образцы документов, запрос и ответ на него, как показано ниже:

Образцы документов:

POST product_index/_doc/1
{
  "group_id": 1,
  "title": "nike",
  "since": "2020-01-01",
  "till": "2020-03-31"
}

POST product_index/_doc/2
{
  "group_id": 2,
  "title": "nike",
  "since": "2020-01-01",
  "till": "2020-03-31"
}

POST product_index/_doc/3
{
  "group_id": 3,
  "title": "nike",
  "since": "2020-03-15",
  "till": "2020-03-31"
}

POST product_index/_doc/4
{
  "group_id": 3,
  "title": "nike",
  "since": "2020-03-19",
  "till": "2020-03-31"
}

Как уже упоминалось выше, существует примерно 4 документа в общей сложности group 1 и 2 имеют по одному документу каждый, в то время как group 3 имеет два документа с обоими since >= now

Запрос запроса:

Сводка запроса приведена ниже:

Bool
 - Must 
   - Match title as nike 
   - Should 
     - clause 1 - since <= now <= till
     - clause 2 - now <= since
Agg
 - Terms on GroupId
   - Top Hits (retrieve only 1st document as your clause is at most for each group, and sort them by asc order of since)

Ниже приведен актуальный запрос:

POST product_index/_search
{
  "size": 0,
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "title": "nike"
          }
        },
        {
          "bool": {
            "should": [
              {                               <--- since <=now <= till
                "bool": {
                  "must": [
                    {
                      "range": {
                        "till": {
                          "gte": "now"
                        }
                      }
                    },
                    {
                      "range": {
                        "since": {
                          "lte": "now"
                        }
                      }
                    }
                  ]
                }
              },
              {                               <---- since >= now
                "bool": {
                  "must": [
                    {
                      "range": {
                        "since": {
                          "gte": "now"
                        }
                      }
                    }
                  ]
                }
              }
            ]
          }
        }
      ]
    }
  },
  "aggs": {
    "my_groups": {
      "terms": {
        "field": "group_id.keyword",
        "size": 10
      },
      "aggs": {
        "my_docs": {
          "top_hits": {
            "size": 1,                           <--- Note this to return at most one document
            "sort": [
              { "since": { "order": "asc"}       <--- Sort to return the lowest value of since
              }
             ]  
          }
        }
      }
    }
  }
}

Обратите внимание, что я использовал Термины агрегации и Топ-хиты в качестве его субагрегация.

Ответ:

{
  "took" : 7,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 4,
      "relation" : "eq"
    },
    "max_score" : null,
    "hits" : [ ]
  },
  "aggregations" : {
    "my_groups" : {
      "doc_count_error_upper_bound" : 0,
      "sum_other_doc_count" : 0,
      "buckets" : [
        {
          "key" : "3",
          "doc_count" : 2,
          "my_docs" : {
            "hits" : {
              "total" : {
                "value" : 2,
                "relation" : "eq"
              },
              "max_score" : null,
              "hits" : [
                {
                  "_index" : "product_index",
                  "_type" : "_doc",
                  "_id" : "3",
                  "_score" : null,
                  "_source" : {
                    "group_id" : 3,
                    "title" : "nike",
                    "since" : "2020-03-15",
                    "till" : "2020-03-31"
                  },
                  "sort" : [
                    1584230400000
                  ]
                }
              ]
            }
          }
        },
        {
          "key" : "1",
          "doc_count" : 1,
          "my_docs" : {
            "hits" : {
              "total" : {
                "value" : 1,
                "relation" : "eq"
              },
              "max_score" : null,
              "hits" : [
                {
                  "_index" : "product_index",
                  "_type" : "_doc",
                  "_id" : "1",
                  "_score" : null,
                  "_source" : {
                    "group_id" : 1,
                    "title" : "nike",
                    "since" : "2020-01-01",
                    "till" : "2020-03-31"
                  },
                  "sort" : [
                    1577836800000
                  ]
                }
              ]
            }
          }
        },
        {
          "key" : "2",
          "doc_count" : 1,
          "my_docs" : {
            "hits" : {
              "total" : {
                "value" : 1,
                "relation" : "eq"
              },
              "max_score" : null,
              "hits" : [
                {
                  "_index" : "product_index",
                  "_type" : "_doc",
                  "_id" : "2",
                  "_score" : null,
                  "_source" : {
                    "group_id" : 2,
                    "title" : "nike",
                    "since" : "2020-01-01",
                    "till" : "2020-03-31"
                  },
                  "sort" : [
                    1577836800000
                  ]
                }
              ]
            }
          }
        }
      ]
    }
  }
}

Дайте мне знать, если это поможет!

...