Запрос Elasticsearch для поиска пропущенных записей - PullRequest
0 голосов
/ 18 апреля 2020

Используя DSL, я пытался найти способ найти документы, которые отсутствуют в наборе документов. В моем наборе данных у меня есть:

Unique ID | Information
abc       | Some data
abc       | Special Information
abc       | Some data
def       | Some data
def       | Special Information
def       | Some data
ghi       | Some data
ghi       | Some data

Я хочу создать запрос, который даст мне уникальный идентификатор набора документов, который не имеет Специальная информация

Например, для вышеуказанного набора данных результат будет гхи

Спасибо

Ответы [ 2 ]

1 голос
/ 18 апреля 2020

Я использовал агрегацию для решения выше.

Я использовал условия агрегации , агрегация фильтра и агрегация селектора сегментов

Создание корзины unique_id с использованием агрегирования терминов. Получить количество документов в срок со специальной информацией. Если число == 0, тогда верните ведро.

Запрос:

{
  "size": 0,
  "aggs": {
    "unique_id": {
      "terms": {
        "field": "unique_id",
        "size": 10
      },
      "aggs": {
        "filter_special_infor": {
          "filter": {
            "term": {
              "information.keyword": "Special Information"
            }
          },
          "aggs": {
            "filtered_count": {
              "value_count": {
                "field": "unique_id"
              }
            }
          }
        },
        "doc_with_no_special_infor": {
          "bucket_selector": {
            "buckets_path": {
              "filteredCount": "filter_special_infor>filtered_count"
            },
            "script": "if(params.filteredCount==0){return true;}else{return false;}"
          }
        }
      }
    }
  }
}

Результат:

"unique_id" : {
      "doc_count_error_upper_bound" : 0,
      "sum_other_doc_count" : 0,
      "buckets" : [
        {
          "key" : "ghi",
          "doc_count" : 2,
          "filter_special_infor" : {
            "doc_count" : 0,
            "filtered_count" : {
              "value" : 0
            }
          }
        }
      ]
    }
1 голос
/ 18 апреля 2020

Существует несколько уникальных идентификаторов, которые не содержат специальной информации. Начните отсюда и настройте при необходимости:

Настройка

PUT special_info
{
  "mappings": {
    "properties": {
      "unique_id": {
        "type": "keyword"
      },
      "information": {
        "type": "text",
        "fields": {
          "keyword": {
            "type": "keyword"
          }
        }
      }
    }
  }
}

Синхронизация c

POST _bulk
{"index":{"_index":"special_info","_type":"_doc"}}
{"unique_id":"abc","information":"Some data"}
{"index":{"_index":"special_info","_type":"_doc"}}
{"unique_id":"abc","information":"Special Information"}
{"index":{"_index":"special_info","_type":"_doc"}}
{"unique_id":"abc","information":"Some data"}
{"index":{"_index":"special_info","_type":"_doc"}}
{"unique_id":"def","information":"Some data"}
{"index":{"_index":"special_info","_type":"_doc"}}
{"unique_id":"def","information":"Special Information"}
{"index":{"_index":"special_info","_type":"_doc"}}
{"unique_id":"def","information":"Some data"}
{"index":{"_index":"special_info","_type":"_doc"}}
{"unique_id":"ghi","information":"Some data"}
{"index":{"_index":"special_info","_type":"_doc"}}
{"unique_id":"ghi","information":"Some data"}

Запрос

GET special_info/_search
{
  "query": {
    "bool": {
      "must_not": [
        {
          "term": {
            "information.keyword": {
              "value": "Special Information"
            }
          }
        }
      ]
    }
  },
  "_source": "unique_id",
  "aggs": {
    "by_unique_ids": {
      "terms": {
        "field": "unique_id"
      }
    }
  }
}

выход

...
"aggregations" : {
    "by_unique_ids" : {
      "doc_count_error_upper_bound" : 0,
      "sum_other_doc_count" : 0,
      "buckets" : [
        {
          "key" : "abc",
          "doc_count" : 2
        },
        {
          "key" : "def",
          "doc_count" : 2
        },
        {
          "key" : "ghi",
          "doc_count" : 2
        }
      ]
    }
  }
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...