Dask Distributed - одни и те же персистентные данные нескольких клиентов - PullRequest
1 голос
/ 07 мая 2019

Мы пытаемся с помощью Dask Distributed сделать несколько сложных вычислений и визуализацию для внешнего интерфейса.

Теперь у нас есть один рабочий с gunicorn, который подключается к существующему кластеру Distributed Dask, рабочий загружает данные в настоящее время с read_csv и сохраняться в кластере.

Я пытался использовать pickle для сохранения фьючерсов с сохраняемого кадра данных, но это не работает.

Мы хотим иметь несколько рабочих-оружейников, каждыйс другим клиентом, подключающимся к тому же кластеру и использующим те же данные, но с большим количеством работников каждый загружает новый фрейм данных.

1 Ответ

0 голосов
/ 11 мая 2019

Похоже, вы ищете способность Даска к публикации наборов данных

Удобный способ сделать это - использовать client.datasets mapping

Клиент 1

client = Client('...')
df = dd.read_csv(...)
client.datasets['my-data'] = df

Клиент 2..n

client = Client('...')  # same scheduler
df = client.datasets['my-data']
...