Я обрабатываю набор изображений в кластере с несколькими узлами. Каждое изображение обрабатывается в отдельном ядре.
Во время обработки выходные данные сохраняются в словаре, который временно сохраняется в объекте zarr.DictStore
. В конце сценария диктат сохраняется в zarr.DirectoryStore
с использованием функции zarr.copy_store
.
У меня есть ~ 200 файлов, и в начале обработки вывод сохраняется быстро, но файлы zarr генерируются медленнее и медленнее (последние файлы ~ 30 минут каждый).
- Когда я запускаю, обрабатываю одни и те же файлы и сохраняю их, используя hdf5
, нет разницы во времени обработки.
- На сервере нет значительного дополнительного io
давления.
Есть идеи, если это проблема с zarr или os?
Любое предложение о том, как я могу выяснить / решить проблему?
Спасибо