Производительность Pymongo с использованием многопроцессорной обработки на одном компьютере для Data Analyysist - PullRequest
0 голосов
/ 05 декабря 2018

Я хочу поделиться своим опытом и попросить несколько идей для повышения производительности моих запросов.

Я работаю с набором юридических документов объемом 8 ГБ (~ 400000 документов), который я развернул наМонго докер-контейнер.Кроме того, я создал скрипт на python, используя пул рабочих с разными процессами, каждый из которых обращается к данным по одному и тому же соединению, я также избегаю использования функции пропуска в запросе.Вместо этого у данных есть инкрементный индекс.

Я сделал тесты, но в большинстве случаев у меня производительность выше на одном процессе, чем на многих (рабочая станция имеет 12 ядер и 24 потока).Я думаю, что проблема на БД.

Для записи, я разверну монго с движком InMemory.Кроме того, я попытался загрузить все данные в ОЗУ в списке сегментированной памяти, но он переполняет емкость (важно не загружать данные каждый раз в память, потому что это занимает много времени)

Чтонаилучший подход к архивированию наилучшая производительность для запроса данных на сервере Mongo с различными процессами на одном ПК?

Я не являюсь носителем английского языка, я буду признателен за любые исправления в моем вопросе.Заранее спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...