Управление рабочей памятью в локальном кластере dask - PullRequest
0 голосов
/ 26 декабря 2018

Я пытаюсь загрузить набор данных с помощью dask, но когда приходит время вычислять мой набор данных, у меня возникают следующие проблемы:

ПРЕДУПРЕЖДЕНИЕ - Рабочий превысил бюджет памяти 95%.Перезапуск.

Я просто работаю на своей локальной машине, запускаю dask следующим образом:

if __name__ == '__main__':
    libmarket.config.client = Client()  # use dask.distributed by default

Теперь в моих сообщениях об ошибках я вижу ссылку на 'memory_limit ='параметр ключевого слова.Однако я тщательно изучил документацию по dask и не могу понять, как увеличить предел кровавой рабочей памяти в конфигурации с одним компьютером.У меня есть 256 ГБ оперативной памяти, и я удаляю большинство будущих столбцов (файл CSV размером 20 ГБ), прежде чем преобразовать его обратно в кадр данных pandas, поэтому я знаю, что он уместится в памяти.Мне просто нужно увеличить лимит памяти на одного работника из моего кода (без использования dask-worker), чтобы я мог его обработать.

Пожалуйста, кто-нибудь, помогите мне.

...