Настройка мини-кластера Dask - PullRequest
0 голосов
/ 13 апреля 2020

Чтобы лучше понять Dask, я решил настроить небольшой кластер Dask: два сервера 32 ГБ оперативной памяти и Ma c. Все они являются частью локальной сети и работают под идентичной версией Python 3.5 + Dask, установленной в виртуальной среде. Я установил sshfs на обоих серверах для обмена данными между работниками. Я смог запустить dask-scheduler на 192.168.2.149 и 4 dask-worker на 192.168.2.26.

Мне нужна помощь с концептуальным пониманием топологии, чтобы в полной мере воспользоваться распределенной архитектурой dask: - Я запускаю мои эксперименты на моей маме c, которая является частью локальной сети. У меня есть 20 ГБ CSV, мне нужно загрузить в Pandas, поэтому я запускаю свой код Py локально. В моем коде я настроил клиент Dask для использования dask_scheduler:

client = Client('192.168.2.149:8786')

, затем я пытаюсь загрузить большой CSV следующим образом:

df = dd.read_csv("exp3_raw_data.csv", sep="\t") 

CSV присутствует только на моя мама c так что работники dask ничего не знают о csv. Если я переместу csv в каталог, к которому предоставляется общий доступ через sshfs, то как моя мама c будет ссылаться на этот csv?

Любая помощь приветствуется.

1 Ответ

0 голосов
/ 18 апреля 2020

Если я переместу csv в каталог, к которому открыт общий доступ через sshfs, то как моя мама c будет ссылаться на этот csv?

Вам нужно будет найти адрес, который будет одинаково доступен Вашему клиенту и всем работникам. Dask не будет перемещать ваши файлы для вас. Ожидается, что они будут доступны.

Чаще используется Dask вместе с сетевой файловой системой, которую видят все работники.

...