Поддерживать git-репозиторий во всех dask.distributed работник / планировщик - PullRequest
1 голос
/ 31 октября 2019

Каков наилучший способ для всех рабочих / планировщиков Dask понять модули Python собственного репозитория git?

Было бы плюсом, если бы новые коммиты в репозиторий git отразились наDask рабочие / планировщики так же.

Я пробовал следующие вещи:

(1) С помощью API client.upload_file скопируйте файлы с главного узла на рабочие узлы. Копирование файлов по отдельности приводит к потере структуры модуля / каталога, поэтому архивирование файлов с последующей загрузкой может работать. Но обновления в репозитории git не будут отражены в заархивированных репозиториях главного и рабочего узлов.

(2) (из Amazon EMR) В сценарий начальной загрузки я включил «pip install git + https://github.com/my_repo.git",, чтобы все узлы имели репозиторий при создании экземпляра кластера, но так же, как (1), обновления в репозитории git не будут отражены в установленных пакетах в site-packages /.

1 Ответ

0 голосов
/ 03 ноября 2019

Dask не управляет пользовательскими программными средами. Обычно люди справляются с этим с помощью образов Docker или сетевых файловых систем (NFS)

...