Как заставить Dask обрабатывать меньше разделов / файлов одновременно? - PullRequest
0 голосов
/ 05 июня 2019

Я пытаюсь использовать to_parquet, но происходит сбой моей системы из-за ошибки памяти. Я обнаружил, что он пытается сохранить 100-300 моих разделов одновременно.

Можно ли как-то указать, что я хочу, чтобы одновременно обрабатывалось меньше разделов, чтобы предотвратить сбой из-за использования всей оперативной памяти?

1 Ответ

1 голос
/ 05 июня 2019

Dask будет использовать столько потоков, сколько вы дадите.Задачи могут быть «обработкой», но это просто означает, что они были отправлены работнику, который будет обрабатывать их, когда у него есть запасной поток.

Я пытаюсь использовать to_parquet, но он вылетаетсистема из-за ошибки памяти.

Тем не менее, ваши разделы могут быть достаточно большими, чтобы вы не поместили несколько из них в память одновременно.В этом случае вы можете выбрать меньший размер раздела.См. https://docs.dask.org/en/latest/best-practices.html#avoid-very-large-partitions для получения дополнительной информации.

...