Использование Databricks Connect - PullRequest
0 голосов
/ 05 марта 2019

Я бы хотел редактировать записные книжки Databricks локально, используя мой любимый редактор, а затем использовать Databricks Connect для удаленного запуска записной книжки в кластере Databricks, к которому я обычно обращаюсь через веб-интерфейс.

К сожалению, после поиска в Интернете в течение пары дней, я не могу найти подробную документацию по Databricks Connect.

Я запускаю databricks-connect configure, как предложено на странице PyPI выше, но я не уверенкакие настройкиМожет, кто-нибудь проведет меня через это (например, где найти эти значения в веб-интерфейсе) или предоставит ссылку на соответствующую документацию?

Я знаю, какими должны быть некоторые настройки, но я включу все, чтопоявляется при запуске databricks-connect configure, для полноты и пользы других.

Databricks HostDatabricks TokenCluster ID (например, 0921-001415-jelly628)Org ID (только для Azure, см. ?o=orgId в URL)Port (это spark.databricks.service.port?)

Кроме того, и я думаю, что это то, что меня больше всего интересует, нужно ли мне вносить какие-либо изменения в самой записной книжке, такие как определение SparkContext или что-то еще?Если да, то с какой конфигурацией?

И как мне его запустить?После запуска databricks-connect configure кажется, что никакой "магии" не происходит.Когда я запускаю jupyter notebook, он все еще работает локально и, кажется, не знает, чтобы перенаправить его в удаленный кластер.

Обновление: Если вы хотите придумать что-то ещебетона, в веб-интерфейсе Databricks, dbutils - это предопределенный объект.Как я обращаюсь к нему при удаленном запуске ноутбука?

Ответы [ 2 ]

1 голос
/ 20 марта 2019

Короче говоря, вам нужно будет включить:

spark = SparkSession.builder.getOrCreate ()

При запуске сценариев.Записные книжки должны преобразовываться, но, конечно, магические команды (% выполнения и т. Д.) Не будут работать.

Более подробная информация доступна здесь о частях, которые не будут работать.https://datathirst.net/blog/2019/3/7/databricks-connect-finally

1 голос
/ 12 марта 2019

Я пометил ответ другого человека как ответ, но этот ответ по какой-то причине пропал.

Для моих целей работало официальное руководство пользователя: https://docs.azuredatabricks.net/user-guide/dev-tools/db-connect.html

...