Я бы хотел редактировать записные книжки Databricks локально, используя мой любимый редактор, а затем использовать Databricks Connect для удаленного запуска записной книжки в кластере Databricks, к которому я обычно обращаюсь через веб-интерфейс.
К сожалению, после поиска в Интернете в течение пары дней, я не могу найти подробную документацию по Databricks Connect.
Я запускаю databricks-connect configure
, как предложено на странице PyPI выше, но я не уверенкакие настройкиМожет, кто-нибудь проведет меня через это (например, где найти эти значения в веб-интерфейсе) или предоставит ссылку на соответствующую документацию?
Я знаю, какими должны быть некоторые настройки, но я включу все, чтопоявляется при запуске databricks-connect configure
, для полноты и пользы других.
Databricks Host
Databricks Token
Cluster ID
(например, 0921-001415-jelly628
)Org ID
(только для Azure, см. ?o=orgId
в URL)Port
(это spark.databricks.service.port
?)
Кроме того, и я думаю, что это то, что меня больше всего интересует, нужно ли мне вносить какие-либо изменения в самой записной книжке, такие как определение SparkContext или что-то еще?Если да, то с какой конфигурацией?
И как мне его запустить?После запуска databricks-connect configure
кажется, что никакой "магии" не происходит.Когда я запускаю jupyter notebook
, он все еще работает локально и, кажется, не знает, чтобы перенаправить его в удаленный кластер.
Обновление: Если вы хотите придумать что-то ещебетона, в веб-интерфейсе Databricks, dbutils
- это предопределенный объект.Как я обращаюсь к нему при удаленном запуске ноутбука?