Конкатенация тысяч фреймов данных в последнем шаге dask вызывает ошибку памяти - PullRequest
0 голосов
/ 07 января 2020

Мой сценарий dask работает хорошо до последнего шага, который объединяет тысячи кадров данных и записывает их в CSV. Использование памяти немедленно переходит с 6 ГБ до более 15 ГБ, и я получаю сообщение об ошибке типа «95% памяти превышено, перезапуск рабочих». Моя машина имеет много памяти, хотя. У меня есть два вопроса: (1) как я могу увеличить доступную память для рабочих или для этого последнего шага? (2) Помогут ли промежуточные шаги concat и как их лучше всего добавить? Код проблемы c ниже:

future = client.submit(pd.concat, tasks)
future.result().to_csv(path)
...