Импортируйте репозиторий GitHub в версию сообщества Databricks - PullRequest
0 голосов
/ 07 апреля 2020

Я пытаюсь импортировать некоторые данные из репозитория c в GitHub, чтобы использовать его из моих записных книжек Databricks.

До сих пор я пытался подключить свою учетную запись Databricks к своему GitHub, как описано здесь , но безрезультатно, поскольку кажется, что поддержка GitHub поставляется с некоторыми лицензиями, не относящимися к сообществу. При попытке установить токен GitHub, необходимый для интеграции с GitHub, появляется следующее сообщение:

enter image description here

Тот же вопрос спрашивался ранее на официальном форуме Databricks.

Каков наилучший способ импорта и хранения репозитория GitHub в версии сообщества databricks?

Ответы [ 2 ]

0 голосов
/ 05 мая 2020

при условии, что на вашем рабочем столе установлено python, установите клиентские базы данных cli, клонируйте репо git в свой локальный каталог, а затем используйте рабочее пространство cli для импорта всего репо в виде каталога.

https://docs.databricks.com/dev-tools/cli/workspace-cli.html

0 голосов
/ 08 апреля 2020

Мне удалось решить эту проблему, используя shell команды самого ноутбука. Чтобы получить хранилище в первый раз, я сделал git clone через HTTPS:

%sh git clone https://github.com/SomeDataRepo/TheData.git --depth 1 --branch=master /dbfs/FileStore/TheData/

Почему не S SH? Скважина S SH требует настройки ключей S SH, которые не были необходимы в моем случае.

Наконец, каждый раз, когда мне нужна бесплатная sh версия данных, я выполняю git pull перед выполнением моей программы:

%sh git -C /dbfs/FileStore/TheData/ pull
...