Агрегирование терминов по отфильтрованным элементам массива - PullRequest
0 голосов
/ 12 ноября 2018

Я хочу агрегировать по термину, который находится внутри массива, но меня интересуют только некоторые элементы массива.Я составил упрощенный пример.По сути, я хочу агрегировать на Type.string, если Type.field равно valid.

POST so/question
{
  "Type": [
    [
      {
        "field": "invalid",
        "string": "A"
      }
    ],
    [
      {
        "field": "valid",
        "string": "B"
      }
    ]
  ]
}

GET /so/_search
{
  "size": 0,
  "aggs": {
    "xxx": {
      "filter": {
        "term": {
          "Type.field": "valid"
        }
      },
      "aggs": {
        "yyy": {
          "terms": {
            "field": "Type.string.keyword",
            "min_doc_count": 0
          }
        }
      }
    }
  }
}

Результат агрегации имеет 2 ключа, тогда как мне нужен только ключ "B".

"aggregations": {
  "xxx": {
    "doc_count": 1,
    "yyy": {
      "doc_count_error_upper_bound": 0,
      "sum_other_doc_count": 0,
      "buckets": [
        {
          "key": "A",
          "doc_count": 1
        },
        {
          "key": "B",
          "doc_count": 1
        }
      ]
    }
  }
}

Есть ли способ агрегировать по элементам массива, которые соответствуют фильтру?К сожалению, я не могу изменить формат данных, который был бы очевидным решением.

1 Ответ

0 голосов
/ 12 ноября 2018

Если документы не имеют вложенного типа , я не думаю, что это возможно с простыми типами массивов из-за того, что Elasticsearch выравнивает объекты и сохраняет их.

Запрос чего-либо к этим плоским объектам даст вам совершенно неожиданные результаты.

Теперь я пришел к следующему запросу, использующему Агрегирование терминов с использованием скрипта отлично работает для документа, который вы упомянули в вопросе

POST so/_search
{

  "size": 0,
  "aggs": {
    "xxx": {
      "filter": {
        "term": {
          "Type.field": "valid"
        }
      },
      "aggs": {
        "yyy": {
          "terms": {
            "script": { 
              "source": """
                  int size = doc['Type.string.keyword'].values.length;
                  for(int i=0; i<size; i++){
                    String myString = doc['Type.string.keyword'][i];
                    if(myString.equals("B") && doc['Type.field.keyword'][i].equals("valid")){
                      return myString;
                    }
                  }""",
              "lang": "painless"
            }
          }
        }
      }
    }
  }
}

Однако, если вы проглотите приведенный ниже документ, вы увидите, что ответ агрегации будет совершенно другим.Это связано с тем, что типы массивов не хранят каждое значение Type.field и Type.string в расположении ith в своих соответствующих массивах.

POST so/question/2
{
  "Type": [
    [
      {
        "field": "valid",
        "string": "A"
      }
    ],
    [
      {
        "field": "invalid",
        "string": "B"
      }
    ]
  ]
}

Обратите внимание, что даже приведенный ниже простой запрос Bool не будет работать должным образом и в результате отобразятся оба документа.

POST so/_search
{
  "query": {
    "bool": {
      "must": [
        { "match": { "Type.field.keyword": "valid" }},
        { "match": { "Type.string.keyword": "B" }}
      ]
    }
  }
}

Надеюсь, это поможет!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...