Каков наилучший способ для всех рабочих / планировщиков Dask понять модули Python собственного репозитория git?
Было бы плюсом, если бы новые коммиты в репозиторий git отразились наDask рабочие / планировщики так же.
Я пробовал следующие вещи:
(1) С помощью API client.upload_file скопируйте файлы с главного узла на рабочие узлы. Копирование файлов по отдельности приводит к потере структуры модуля / каталога, поэтому архивирование файлов с последующей загрузкой может работать. Но обновления в репозитории git не будут отражены в заархивированных репозиториях главного и рабочего узлов.
(2) (из Amazon EMR) В сценарий начальной загрузки я включил «pip install git + https://github.com/my_repo.git",, чтобы все узлы имели репозиторий при создании экземпляра кластера, но так же, как (1), обновления в репозитории git не будут отражены в установленных пакетах в site-packages /.