Я хочу поделиться своим опытом и попросить несколько идей для повышения производительности моих запросов.
Я работаю с набором юридических документов объемом 8 ГБ (~ 400000 документов), который я развернул наМонго докер-контейнер.Кроме того, я создал скрипт на python, используя пул рабочих с разными процессами, каждый из которых обращается к данным по одному и тому же соединению, я также избегаю использования функции пропуска в запросе.Вместо этого у данных есть инкрементный индекс.
Я сделал тесты, но в большинстве случаев у меня производительность выше на одном процессе, чем на многих (рабочая станция имеет 12 ядер и 24 потока).Я думаю, что проблема на БД.
Для записи, я разверну монго с движком InMemory.Кроме того, я попытался загрузить все данные в ОЗУ в списке сегментированной памяти, но он переполняет емкость (важно не загружать данные каждый раз в память, потому что это занимает много времени)
Чтонаилучший подход к архивированию наилучшая производительность для запроса данных на сервере Mongo с различными процессами на одном ПК?
Я не являюсь носителем английского языка, я буду признателен за любые исправления в моем вопросе.Заранее спасибо.