ElasticSearch объединяет данные в одном индексе - PullRequest
1 голос
/ 05 октября 2019

Я новичок в ElasticSearch, и я собираю журналы некоторых приложений в одном и том же индексе, которые имеют этот формат

{
    "_index" : "app_logs",
    "_type" : "_doc",
    "_id" : "JVMYi20B0a2qSId4rt12",
    "_source" : {
      "username" : "mapred",
      "app_id" : "application_1569623930006_490200",
      "event_type" : "STARTED",
      "ts" : "2019-10-02T08:11:53Z"
}

У меня могут быть разные типы событий. В этом случае меня интересуют STARTED и FINISHED. Я бы хотел запросить у ES все приложения, запущенные в определенный день, и обогатить их временем окончания. В основном я хочу создать пары начала / конца (конец также может отсутствовать, но это нормально).

Я понял, что отношения соединения в sql нельзя использовать в ES, и мне было интересно, смогу ли я использовать какую-то другую функцию, чтобы получить этот результат в одном запросе.

Редактировать: этодетали отображения индекса

{ 
 “app_logs" : {
  "mappings" : {
   "_doc" : {
    "properties" : {
      "event_type" : {
        "type" : "text",
        "fields" : {
          "keyword" : {
            "type" : "keyword",
            "ignore_above" : 256
          }
        }
      },
      “app_id" : {
        "type" : "text",
        "fields" : {
          "keyword" : {
            "type" : "keyword",
            "ignore_above" : 256
          }
        }
      },
      "ts" : {
        "type" : "date"
      },
      “event_type” : {
        "type" : "text",
        "fields" : {
          "keyword" : {
            "type" : "keyword",
            "ignore_above" : 256
          }
        }
      }
    }
  }}}}

1 Ответ

1 голос
/ 05 октября 2019

Что я понял, так это то, что вы хотите сопоставить список документов, имеющих тот же app_id вместе с status как STARTED или FINISHED.

Я не думаю, что Elasticsearch не предназначен для выполнения операций JOIN. Я имею в виду, что вы можете, но тогда вам нужно оформить свои документы, как указано в этой ссылке .

Вам понадобится Запрос агрегации .

Ниже приведено примерное отображение, документы, запрос агрегации и ответ о том, как он выглядит, что фактически поможет вам получить желаемый результат.

Отображение:

PUT mystatusindex
{
  "mappings": {
    "properties": {
      "username":{
        "type": "keyword"
      },
      "app_id":{
        "type": "keyword"
      },
      "event_type":{
        "type":"keyword"
      },
      "ts":{
        "type": "date"
      }
    }
  }
}

Образцы документов

POST mystatusindex/_doc/1
{
    "username" : "mapred",
    "app_id" : "application_1569623930006_490200",
    "event_type" : "STARTED",
    "ts" : "2019-10-02T08:11:53Z"
}

POST mystatusindex/_doc/2
{
    "username" : "mapred",
    "app_id" : "application_1569623930006_490200",
    "event_type" : "FINISHED",
    "ts" : "2019-10-02T08:12:53Z"
}

POST mystatusindex/_doc/3
{
    "username" : "mapred",
    "app_id" : "application_1569623930006_490201",
    "event_type" : "STARTED",
    "ts" : "2019-10-02T09:30:53Z"
}

POST mystatusindex/_doc/4
{
    "username" : "mapred",
    "app_id" : "application_1569623930006_490202",
    "event_type" : "STARTED",
    "ts" : "2019-10-02T09:45:53Z"
}

POST mystatusindex/_doc/5
{
    "username" : "mapred",
    "app_id" : "application_1569623930006_490202",
    "event_type" : "FINISHED",
    "ts" : "2019-10-02T09:45:53Z"
}

POST mystatusindex/_doc/6
{
  "username" : "mapred",
  "app_id" : "application_1569623930006_490203",
  "event_type" : "STARTED",
  "ts" : "2019-10-03T09:30:53Z"
}

POST mystatusindex/_doc/7
{
  "username" : "mapred",
  "app_id" : "application_1569623930006_490203",
  "event_type" : "FINISHED",
  "ts" : "2019-10-03T09:45:53Z"
}

Запрос:

POST mystatusindex/_search
{
  "size": 0,
  "query": {
    "bool": {
      "must": [
        {
          "range": {
            "ts": {
              "gte": "2019-10-02T00:00:00Z",
              "lte": "2019-10-02T23:59:59Z"
            }
          }
        }
      ],
      "should": [
        {
          "match": {
            "event_type": "STARTED"
          }
        },
        {
          "match": {
            "event_type": "FINISHED"
          }
        }
      ]
    }
  },
  "aggs": {
    "application_IDs": {
      "terms": {
        "field": "app_id"
      },
      "aggs": {
        "ids": {
          "top_hits": {
            "size": 10,
            "_source": ["event_type", "app_id"],
            "sort": [
              { "event_type": { "order": "desc"}}
              ]
          }
        }
      }
    }
  }
}

Обратите внимание, что для фильтрации я использовал Range Query , поскольку вы хотите фильтровать документы только на эту дату, а также добавили логику bool should для фильтрации на основе STARTED и FINISHED.

Получив документы, я воспользовался Агрегирование терминов и Агрегация топ-хитов , чтобы получить желаемый результат.

Результат

{
  "took" : 12,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 5,
      "relation" : "eq"
    },
    "max_score" : null,
    "hits" : [ ]
  },
  "aggregations" : {
    "application_IDs" : {
      "doc_count_error_upper_bound" : 0,
      "sum_other_doc_count" : 0,
      "buckets" : [
        {
          "key" : "application_1569623930006_490200",       <----- APP ID
          "doc_count" : 2,
          "ids" : {
            "hits" : {
              "total" : {
                "value" : 2,
                "relation" : "eq"
              },
              "max_score" : null,
              "hits" : [
                {
                  "_index" : "mystatusindex",
                  "_type" : "_doc",
                  "_id" : "1",                     <--- Document with STARTED status
                  "_score" : null,
                  "_source" : {
                    "event_type" : "STARTED",     
                    "app_id" : "application_1569623930006_490200"
                  },
                  "sort" : [
                    "STARTED"
                  ]
                },
                {
                  "_index" : "mystatusindex",
                  "_type" : "_doc",
                  "_id" : "2",                    <--- Document with FINISHED status
                  "_score" : null,
                  "_source" : {
                    "event_type" : "FINISHED",     
                    "app_id" : "application_1569623930006_490200"
                  },
                  "sort" : [
                    "FINISHED"
                  ]
                }
              ]
            }
          }
        },
        {
          "key" : "application_1569623930006_490202",
          "doc_count" : 2,
          "ids" : {
            "hits" : {
              "total" : {
                "value" : 2,
                "relation" : "eq"
              },
              "max_score" : null,
              "hits" : [
                {
                  "_index" : "mystatusindex",
                  "_type" : "_doc",
                  "_id" : "4",
                  "_score" : null,
                  "_source" : {
                    "event_type" : "STARTED",
                    "app_id" : "application_1569623930006_490202"
                  },
                  "sort" : [
                    "STARTED"
                  ]
                },
                {
                  "_index" : "mystatusindex",
                  "_type" : "_doc",
                  "_id" : "5",
                  "_score" : null,
                  "_source" : {
                    "event_type" : "FINISHED",
                    "app_id" : "application_1569623930006_490202"
                  },
                  "sort" : [
                    "FINISHED"
                  ]
                }
              ]
            }
          }
        },
        {
          "key" : "application_1569623930006_490201",
          "doc_count" : 1,
          "ids" : {
            "hits" : {
              "total" : {
                "value" : 1,
                "relation" : "eq"
              },
              "max_score" : null,
              "hits" : [
                {
                  "_index" : "mystatusindex",
                  "_type" : "_doc",
                  "_id" : "3",
                  "_score" : null,
                  "_source" : {
                    "event_type" : "STARTED",
                    "app_id" : "application_1569623930006_490201"
                  },
                  "sort" : [
                    "STARTED"
                  ]
                }
              ]
            }
          }
        }
      ]
    }
  }
}

Обратите внимание, что последний результат, содержащий только STARTED, также присутствует в результате агрегации.

Обновленный ответ

{ 
   "size":0,
   "query":{ 
      "bool":{ 
         "must":[ 
            { 
               "range":{ 
                  "ts":{ 
                     "gte":"2019-10-02T00:00:00Z",
                     "lte":"2019-10-02T23:59:59Z"
                  }
               }
            }
         ],
         "should":[ 
            { 
               "term":{ 
                  "event_type.keyword":"STARTED"   <----- Changed this 
               }
            },
            { 
               "term":{ 
                  "event_type.keyword":"FINISHED"  <----- Changed this 
               }
            }
         ]
      }
   },
   "aggs":{ 
      "application_IDs":{ 
         "terms":{ 
            "field":"app_id.keyword"               <----- Changed this 
         },
         "aggs":{ 
            "ids":{ 
               "top_hits":{ 
                  "size":10,
                  "_source":[ 
                     "event_type",
                     "app_id"
                  ],
                  "sort":[ 
                     { 
                        "event_type.keyword":{    <----- Changed this 
                           "order":"desc"
                        }
                     }
                  ]
               }
            }
         }
      }
   }
}

Обратите внимание на изменения, которые я сделал. Всякий раз, когда вам нужны точные совпадения или вы хотите использовать агрегацию, вы должны использовать тип keyword.

В отображенном вами отображении нет поля username, а два поля event_type . Я предполагаю, что это просто человеческая ошибка, и одно из полей должно быть username.

Теперь, если вы внимательно заметите, поле event_type имеет text и его родственное поле keyword,Я только что изменил запрос, чтобы использовать поле ключевого слова, и когда я делаю это, я использую Term Query .

Попробуйте и дайте мне знать, если это поможет!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...