Elasti c Поиск перекрестка Query - PullRequest
0 голосов
/ 06 марта 2020

Я хочу получить общие слова из списка пользователей, отсортированных по общему количеству.

пример: у меня есть индекс слов, используемых пользователем.

документы:

[
  {
    user_id: 1,
    word: 'food',
    count: 2
  },
  {
    user_id: 1,
    word: 'thor',
    count: 1
  },
  {
    user_id: 1,
    word: 'beer',
    count: 7
  },
  {
    user_id: 2,
    word: 'summer',
    count: 12
  },
  {
    user_id: 2,
    word: 'thor',
    count: 4
  },
  {
    user_id: 1,
    word: 'beer',
    count: 2
  },
  ..otheruserdetails..
]

ввод: user_ids: [1, 2]

желаемый вывод:

[
  {
    'word': 'beer',
    'total_count': 9
  },
  {
    'word': 'thor',
    'total_count': 5
  }
]

что у меня есть:

  1. выборка всех документов с использованием user_id в user_id list (bool должен запрашивать)
  2. обрабатывать документы на уровне приложения.
    • l oop через каждое ключевое слово
      • проверить, присутствует ли ключевое слово для каждого user_id
      • , если да, найти количество
      • else, утилизировать и go к следующему ключевому слову

Однако это неосуществимо, потому что документы документов будут увеличиваться в размерах, а уровень приложения не будет поддерживаться. любой способ переместить это в запрос ES?

Ответы [ 3 ]

1 голос
/ 06 марта 2020

Вы можете использовать агрегации вместе с фильтром для пользователя, как показано ниже:

{
  "size": 0,
  "aggs": {
    "words_stats": {
      "filter": {
        "terms": {
          "user_id": [
            "1",
            "2"
          ]
        }
      }, 
      "aggs": {
        "words": {
          "terms": {
            "field": "word.keyword"
          },
          "aggs": {
            "total_count": {
              "sum": {
                "field": "count"
              }
            }
          }
        }
      }
    }
  }
}

Результат будет:

{
  "key" : "beer",
  "doc_count" : 2,
  "total_count" : {
    "value" : 9.0
  }
},
{
  "key" : "thor",
  "doc_count" : 2,
  "total_count" : {
    "value" : 5.0
  }
},
{
  "key" : "food",
  "doc_count" : 1,
  "total_count" : {
    "value" : 2.0
  }
},
{
  "key" : "summer",
  "doc_count" : 1,
  "total_count" : {
    "value" : 12.0
 }
}
1 голос
/ 06 марта 2020

Вы можете использовать Термины агрегации и Значения агрегации значений

Можно рассматривать "Агрегирование терминов" как "Группировать по". Вывод выдаст уникальный список userIds, список всех слов пользователя и, наконец, количество каждого слова

{
  "from": 0, 
  "size": 10, 
  "query": {
    "terms": {
      "user_id": [
        "1",
        "2"
      ]
    }
  },
  "aggs": {
    "users": {
      "terms": {
        "field": "user_id",
        "size": 10
      },
      "aggs": {
        "words": {
          "terms": {
            "field": "word.keyword",
            "size": 10
          },
          "aggs": {
            "word_count": {
              "value_count": {
                "field": "word.keyword"
              }
            }
          }
        }
      }
    }
  }
}

Результат

    "hits" : [
      {
        "_index" : "index89",
        "_type" : "_doc",
        "_id" : "gFRzr3ABAWOsYG7t2tpt",
        "_score" : 1.0,
        "_source" : {
          "user_id" : 1,
          "word" : "thor",
          "count" : 1
        }
      },
      {
        "_index" : "index89",
        "_type" : "_doc",
        "_id" : "flRzr3ABAWOsYG7t0dqI",
        "_score" : 1.0,
        "_source" : {
          "user_id" : 1,
          "word" : "food",
          "count" : 2
        }
      },
      {
        "_index" : "index89",
        "_type" : "_doc",
        "_id" : "f1Rzr3ABAWOsYG7t19ps",
        "_score" : 1.0,
        "_source" : {
          "user_id" : 2,
          "word" : "thor",
          "count" : 4
        }
      },
      {
        "_index" : "index89",
        "_type" : "_doc",
        "_id" : "gVRzr3ABAWOsYG7t8NrR",
        "_score" : 1.0,
        "_source" : {
          "user_id" : 1,
          "word" : "food",
          "count" : 2
        }
      },
      {
        "_index" : "index89",
        "_type" : "_doc",
        "_id" : "glRzr3ABAWOsYG7t-Npj",
        "_score" : 1.0,
        "_source" : {
          "user_id" : 1,
          "word" : "thor",
          "count" : 1
        }
      },
      {
        "_index" : "index89",
        "_type" : "_doc",
        "_id" : "g1Rzr3ABAWOsYG7t_9po",
        "_score" : 1.0,
        "_source" : {
          "user_id" : 2,
          "word" : "thor",
          "count" : 4
        }
      }
    ]
  },
  "aggregations" : {
    "users" : {
      "doc_count_error_upper_bound" : 0,
      "sum_other_doc_count" : 0,
      "buckets" : [
        {
          "key" : 1,
          "doc_count" : 4,
          "words" : {
            "doc_count_error_upper_bound" : 0,
            "sum_other_doc_count" : 0,
            "buckets" : [
              {
                "key" : "food",
                "doc_count" : 2,
                "word_count" : {
                  "value" : 2
                }
              },
              {
                "key" : "thor",
                "doc_count" : 2,
                "word_count" : {
                  "value" : 2
                }
              }
            ]
          }
        },
        {
          "key" : 2,
          "doc_count" : 2,
          "words" : {
            "doc_count_error_upper_bound" : 0,
            "sum_other_doc_count" : 0,
            "buckets" : [
              {
                "key" : "thor",
                "doc_count" : 2,
                "word_count" : {
                  "value" : 2
                }
              }
            ]
          }
        }
      ]
    }
  }
0 голосов
/ 06 марта 2020

Вот что я должен был сделать:

Я сослался на ответы @ Rake sh Chandru & @jaspreet chahal 'и придумал это. этот запрос обрабатывает intersection и sorting.

Процесс:

  • фильтр по user_ids
  • group_by (термины аггс) по ключевому слову (слово в примере),
  • порядок по агрегированию (сумме) отсчетов
{
    size: 0, // because we do not want result of filtered records
    query: {
        terms: { user_id: user_ids } // filter by user_ids
    },
    aggs: {
        group_by_keyword: {
            terms: {
                field: "keyword", // group by keyword
                min_doc_count: 2, // where count >= 2
                order: { agg_count: "desc" }, // order by count
                size
            },
            aggs: { 
                agg_count: {
                    sum: {
                        field: "count" // aggregating count
                    }
                }
            }
        }
    }
}
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...