Question

Я хочу поделиться своим опытом и попросить несколько идей для повышения производительности моих запросов.

Я работаю с набором юридических документов объемом 8 ГБ (~ 400000 документов), который я развернул наМонго докер-контейнер.Кроме того, я создал скрипт на python, используя пул рабочих с разными процессами, каждый из которых обращается к данным по одному и тому же соединению, я также избегаю использования функции пропуска в запросе.Вместо этого у данных есть инкрементный индекс.

Я сделал тесты, но в большинстве случаев у меня производительность выше на одном процессе, чем на многих (рабочая станция имеет 12 ядер и 24 потока).Я думаю, что проблема на БД.

Для записи, я разверну монго с движком InMemory.Кроме того, я попытался загрузить все данные в ОЗУ в списке сегментированной памяти, но он переполняет емкость (важно не загружать данные каждый раз в память, потому что это занимает много времени)

Чтонаилучший подход к архивированию наилучшая производительность для запроса данных на сервере Mongo с различными процессами на одном ПК?

Я не являюсь носителем английского языка, я буду признателен за любые исправления в моем вопросе.Заранее спасибо.

Производительность Pymongo с использованием многопроцессорной обработки на одном компьютере для Data Analyysist

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Производительность Pymongo с использованием многопроцессорной обработки на одном компьютере для Data Analyysist

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы