Распределенный локальный каталог Dask - PullRequest
0 голосов
/ 17 мая 2019

Я бы хотел перенаправить все временные данные на мой быстрый и большой диск на /mnt/1. Я запускаю планировщик так:

dask-scheduler --local-directory /mnt/1

и рабочие:

dask-worker 127.0.0.1:8786 --memory-limit 16GB --nthreads 1 --nprocs 6 --local-directory /mnt/1/

Мой импорт выглядит так:

import dask
from dask import dataframe as dd
from dask import delayed
from dask.distributed import Client
client = Client('localhost:8786', set_as_default=True)
dask.config.set(shuffle='disk')

И все же я все еще вижу, что каталог partd создается и заполняется содержимым в моем каталоге /tmp, которого нет на моем быстром и большом диске.

У меня такой вопрос: как сказать распределённому dask, чтобы отправить абсолютно все временные данные на /mnt/1 и не помещать что-нибудь в /tmp?

1 Ответ

0 голосов
/ 17 мая 2019

Это похоже на работу, обратите внимание на последнюю новую строку. Немного раздражает, что флаги командной строки на самом деле не делают то, что они предлагают.

import dask
from dask import dataframe as dd
from dask import delayed
from dask.distributed import Client
client = Client('localhost:8786', set_as_default=True)
dask.config.set(shuffle='disk')
dask.config.set({'temporary_directory': '/mnt/1'})
...