Question

У меня проблемы с производительностью API, который я разрабатываю с использованием NodeJS + Express + MongoDB.

При запуске агрегата с $ match для определенного продукта производительность хорошая, но для открытого поиска она очень медленная.

Я хочу запустить группу по двум столбцам: страна и экспортер, а затем получить результат, ограниченный 3 результатами на группу по стране.

Требование: общее количество уникальных экспортеров из каждой страны по с любыми 3 записями из каждой страны.

При запуске explain() на моем aggregate function я получаю следующие ключевые указатели, которые отмечают, что мои запросы выполняются медленно. Пожалуйста, поправьте меня, если я ошибаюсь.

"indexFilterSet": false
"winningPlan": { "stage": "COLLSCAN", "direction": "forward" },

Запустил запрос на 9,264,947 записях и время заняло около 32 seconds. Я пытался использовать составной индекс, а также индекс одного поля, но это совсем не помогает, так как я чувствую, что индекс не используется, если $match пусто {}

Ниже приведен запрос, который я выполняю на mongoDB с использованием mongoose driver

Model.aggregate([
  {"$match" : query},
  { $group : {_id: {country: "$Country", exporter: "$Exporter"}, id: {$first: "$_id"}, product: { $first: "$Description" }}},
  { $group : {_id: "$_id.country", data: {$push: { id: "$id", company: "$_id.exporter", product: "$product" }}, count:{$sum:1}}},
  { "$sort": { "count": -1 } },
  { 
    $project: { 
      "data": { "$slice": [ "$data", 3 ] },
      "_id": 1,
      "count": 1
    }
  },
]).allowDiskUse(true).explain()

где query динамически создается и по умолчанию пуст {} для поиска по всей коллекции. Индексированные поля:

Составной индекс: {Country: 1, Exporter: 1}
Текстовый указатель: {Description: "text"}

Полное объяснение () ответ:

{
"success": "Successfull",
"status": 200,
"data": {
    "stages": [
        {
            "$cursor": {
                "query": {},
                "fields": {
                    "Country": 1,
                    "Description": 1,
                    "Exporter": 1,
                    "_id": 1
                },
                "queryPlanner": {
                    "plannerVersion": 1,
                    "namespace": "db.OpenExportData",
                    "indexFilterSet": false,
                    "parsedQuery": {},
                    "winningPlan": {
                        "stage": "COLLSCAN",
                        "direction": "forward"
                    },
                    "rejectedPlans": []
                }
            }
        },
        {
            "$group": {
                "_id": {
                    "country": "$Country",
                    "exporter": "$Exporter"
                },
                "id": {
                    "$first": "$_id"
                },
                "product": {
                    "$first": "$Description"
                }
            }
        },
        {
            "$group": {
                "_id": "$_id.country",
                "data": {
                    "$push": {
                        "id": "$id",
                        "company": "$_id.exporter",
                        "product": "$product"
                    }
                },
                "count": {
                    "$sum": {
                        "$const": 1
                    }
                }
            }
        },
        {
            "$sort": {
                "sortKey": {
                    "count": -1
                }
            }
        },
        {
            "$project": {
                "_id": true,
                "count": true,
                "data": {
                    "$slice": [
                        "$data",
                        {
                            "$const": 3
                        }
                    ]
                }
            }
        }
    ],
    "ok": 1
}
}

Размер коллекции: 9,264,947 записей и 10,2 ГБ

Время отклика: 32154 мс

Запрос становится медленнее, так как размер моей коллекции увеличивается.

simagix · Answer 1 · 13 января 2019

Если ваш запрос равен {}, механизм монго пропускает этап $match и переходит прямо к $group. Индекс не будет использоваться. Вы можете проверить выше из explain() результата. Операторы конвейера $match и $sort могут использовать индекс, когда они появляются в начале конвейера. Глядя на свой конвейер, вы группируете их, используя Страна и Экспортер . Что вы можете сделать, это создать индекс на {Country: 1, Exporter: 1} и использовать $sort на {Country: 1, Exporter: 1} в качестве первого этапа конвейера. Это сделает $group более эффективным.

Grégory NEUT · Answer 2 · 10 января 2019

Использование агрегата, подобного этому, означает, что mongodb должен пройти через всю запись, затем сгруппировать данные (загрузить 10 Гб), а затем нарезать массив, который он бы создал.

Конечно, чем больше будет расти ваша коллекция, тем дольше она будет.

Я думаю, что вместо оптимизации вашего фактического запроса стоит пересмотреть ваш подход к нему.

Сначала я бы find назвал каждую страну имя, используя один запрос. Затем используйте один запрос для каждой страны , получая первый 3 экспортер .

Использование индексов для страна и экспортер .

Это намного больше запросов, но гораздо меньше, что не требует загрузки всех данных. С прямым доступом к данным с использованием соответствующих индексов.

И учитывая, что там нет тысяч разных стран

Медленный запрос в MongoDB с совокупным совокупным запросом с использованием группы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Медленный запрос в MongoDB с совокупным совокупным запросом с использованием группы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы