Я бы начал с самого простого развертывания: получить большой ящик на Amazon или Azure, установить дистрибутив Anaconda python и запустить dask (и jupyter). Если у вас есть специалист по данным, использующий Jupyter в этом окне, он может просто выполнить
from dask.distributed import Client
client = Client()
, что увеличит LocalCluster
на этом компьютере.
Если вы хотите получить доступ вместо кластера dask с другого компьютера, вам просто нужно выполнить несколько процессов
Чтобы запустить планировщик:
$ dask-scheduler
Scheduler started at 127.0.0.1:8786
И затем запустить несколько рабочих (в идеале, по одному на ядро)
$ dask-worker 127.0.0.1:8786
$ dask-worker 127.0.0.1:8786
$ dask-worker 127.0.0.1:8786
Затем вы можете выставить 8786 во внешний мир через туннели s sh
Существует много более сложных настроек - работающих на k8s или в службе контейнеров elasti c , но если вам это нужно, действительно зависит от вашего варианта использования.
У Saturn Cloud есть корпоративный продукт Dask на AWS рынке, который сделает более сложное развертывание k8s для вас. (отказ от ответственности: я один из основателей)