Чтобы лучше понять Dask, я решил настроить небольшой кластер Dask: два сервера 32 ГБ оперативной памяти и Ma c. Все они являются частью локальной сети и работают под идентичной версией Python 3.5 + Dask, установленной в виртуальной среде. Я установил sshfs на обоих серверах для обмена данными между работниками. Я смог запустить dask-scheduler на 192.168.2.149 и 4 dask-worker на 192.168.2.26.
Мне нужна помощь с концептуальным пониманием топологии, чтобы в полной мере воспользоваться распределенной архитектурой dask: - Я запускаю мои эксперименты на моей маме c, которая является частью локальной сети. У меня есть 20 ГБ CSV, мне нужно загрузить в Pandas, поэтому я запускаю свой код Py локально. В моем коде я настроил клиент Dask для использования dask_scheduler:
client = Client('192.168.2.149:8786')
, затем я пытаюсь загрузить большой CSV следующим образом:
df = dd.read_csv("exp3_raw_data.csv", sep="\t")
CSV присутствует только на моя мама c так что работники dask ничего не знают о csv. Если я переместу csv в каталог, к которому предоставляется общий доступ через sshfs, то как моя мама c будет ссылаться на этот csv?
Любая помощь приветствуется.