Как дедуплицировать и выполнять агрегации с помощью одного поискового запроса Elasti c? - PullRequest
1 голос
/ 24 апреля 2020

У меня есть индекс, в котором хранятся данные о сотруднике.

У меня есть поле обратной связи для целых значений сотрудника (0-10).

Я хочу получить количество отзывов, в среднем оценка отзывов и средняя оценка на сотрудника обратной связи.

Проблема в следующем:

Итак, у меня есть два или более одинаковых документа (дубликаты) в индексе ES (с использованием идентификатора сотрудника и один идентификатор обратной связи, мы можем различить guish записей),

Я хочу сделать avg и рассчитывать на некоторые поля только с одним документом, который будет рассматриваться с использованием только запроса ES *

PS: мы не можем удалить дубликаты из индекса.

Ответы [ 2 ]

1 голос
/ 24 апреля 2020

Данные:

"hits" : [
      {
        "_index" : "index22",
        "_type" : "_doc",
        "_id" : "r_QurHEBvLUX24hJph0B",
        "_score" : 1.0,
        "_source" : {
          "empId" : 1,
          "feedbackId" : 1,
          "feedback" : 2
        }
      },
      {
        "_index" : "index22",
        "_type" : "_doc",
        "_id" : "sPQurHEBvLUX24hJ0R3x",
        "_score" : 1.0,
        "_source" : {
          "empId" : 1,
          "feedbackId" : 1,
          "feedback" : 2
        }
      },
      {
        "_index" : "index22",
        "_type" : "_doc",
        "_id" : "sfQurHEBvLUX24hJ5h16",
        "_score" : 1.0,
        "_source" : {
          "empId" : 1,
          "feedbackId" : 2,
          "feedback" : 6
        }
      }
    ]

Я взял одного сотрудника с идентификатором 1 и тремя отзывами (два дубликата для identifierId 1 и один для identifierId2). Общая сумма равна 10, а использование отдельной суммы равно 8

Запрос:

Я использую сценарий metri c агрегация для создания словаря уникальный feedbackIdentifierI и значение обратной связи.

  1. "init_script":

Выполняется перед любой коллекцией документов. Позволяет агрегации устанавливать любое начальное состояние.

Объявлены транзакции хеш-таблицы "

"map_script"

Выполняется один раз для каждого документа, собранного L oop по всему документу, и добавляет уникальный идентификатор и соответствующее значение обратной связи в словарь

объединить_скрипт

Выполняется один раз для каждого шарда после завершения сбора документов

Возвращать словарь для всех шардов

redu_script

Выполняется один раз на координирующем узле после того, как все осколки вернули свои результаты

Еще раз go через все словари, возвращаемые каждым осколок и создать единый уникальный словарь. L oop через словарь для получения суммы или количества отзывов

{
  "size": 0,
  "aggs": {
    "employee": {
      "terms": {
        "field": "empId",
        "size": 10000
      },
      "aggs": {
        "distinct_sum_feedback": {
          "scripted_metric": {
            "init_script": "state.transactions =new Hashtable();",
            "map_script": "if(state.transactions.get(doc.feedbackId)==null){state.transactions.put(doc.feedbackId, doc.feedback.value)}",
            "combine_script": "return state.transactions",
            "reduce_script": "def sum=0;def feedbacks=new Hashtable();for(a in states){for(entry in a.entrySet()){if(feedbacks.get(entry.getKey())==null){feedbacks.put(entry.getKey(),entry.getValue());}}}for(entry in feedbacks.entrySet()){sum+=entry.getValue();}    return sum;"
          }
        },
        "distinct_count_feedback": {
          "cardinality": {
            "field": "feedbackId"
          }
        },
        "distinct_avg_feedback": {
          "bucket_script": {
            "buckets_path": {
              "sum": "distinct_sum_feedback.value",
              "count": "distinct_count_feedback.value"
            },
            "script": "params.sum/params.count"
          }
        }
      }
    },
    "sum_feedback": {
      "sum_bucket": {
        "buckets_path": "employee>distinct_sum_feedback.value"
      }
    },
    "count_feedback": {
      "sum_bucket": {
        "buckets_path": "employee>distinct_count_feedback.value"
      }
    }
  }
}

Результат: Различное количество для пользователя 1: 2

Различное количество для пользователя 1: 8 (10 для дубликата)

"aggregations" : {
    "employee" : {
      "doc_count_error_upper_bound" : 0,
      "sum_other_doc_count" : 0,
      "buckets" : [
        {
          "key" : 1,
          "doc_count" : 3,
          "distinct_count_feedback" : {
            "value" : 2
          },
          "distinct_sum_feedback" : {
            "value" : 8
          },
          "distinct_avg_feedback" : {
            "value" : 4.0
          }
        },
        {
          "key" : 2,
          "doc_count" : 1,
          "distinct_count_feedback" : {
            "value" : 1
          },
          "distinct_sum_feedback" : {
            "value" : 6
          },
          "distinct_avg_feedback" : {
            "value" : 6.0
          }
        }
      ]
    },
    "sum_feedback" : {
      "value" : 14.0
    },
    "count_feedback" : {
      "value" : 3.0
    }
  }
0 голосов
/ 24 апреля 2020

Это звучит очень похоже на то, что вы должны использовать несколько скоплений сегментов. Я не вижу способа получить всю эту информацию за один вызов, но я думаю, что, безусловно, существует способ агрегирования ваших данных для получения необходимой информации.

О агрегации сегментов .

В частности, вы можете использовать агрегирование терминов для идентификатора сотрудника и идентификатора обратной связи, чтобы получить каждого сотрудника в отдельном сегменте. Отсюда вы можете получить количество отзывов на одного сотрудника.

Вы можете выполнить похожие запросы только для идентификатора обратной связи, чтобы получить количество отзывов по всем вашим записям.

И вот ссылка на Avg_Bucket агрегация , которую можно использовать для вычисления средних значений в ваших корзинах данных (группах).

Обратите внимание, что существует динамическая c настройка кластера (search.max_buckets), которая занимает первое место в 10 000 ведрах.

Я думаю, что-то вроде этого может быть то, что вы ищете, хотя у меня нет индекса, чтобы проверить это. Возможно, это поможет вам выбрать правильную дорожку и посмотреть, как объединить различные агрегаты:

POST /_search
{
  "size": 0,
  "aggs": {
    "employees": {
      "terms": {
        "field": "employeeId"
      },
      "aggs": {
        "feedbacks": {
          "count": {
            "field": "feedbackId"
          }
        }
      }
    },
    "avg_feedback_score": {
      "avg_bucket": {
        "buckets_path": "employees>feedbacks" 
      }
    }
  }
}
...