Общие метаданные в кластере Databricks - PullRequest
3 голосов
/ 10 июля 2020

У меня есть 3-4 кластера в моем экземпляре databricks облачной платформы Azure. Я хочу поддерживать общее хранилище метаданных для всего кластера. Сообщите мне, реализовал ли кто-нибудь это.

1 Ответ

2 голосов
/ 12 июля 2020

Я рекомендую настроить внешнее хранилище метаданных Hive. По умолчанию Detabricks создает собственное хранилище метаданных за кулисами. Но вы можете создать свою собственную базу данных (Azure SQL действительно работает, также MySQL или Postgres) и указать ее при запуске кластера.

Вот подробные шаги: https://docs.microsoft.com/en-us/azure/databricks/data/metastores/external-hive-metastore

На что следует обратить внимание:

  • Вкладка «Данные» в Databricks - вы можете выбрать кластер и просмотреть различные хранилища метаданных.
  • Чтобы избежать использования SQL пользователь и пароль, см. Управляемые удостоверения https://docs.microsoft.com/en-us/azure/stream-analytics/sql-database-output-managed-identity
  • Автоматизируйте подключения к внешним хранилищам метаданных Hive с помощью сценариев инициализации для вашего кластера
  • Управление разрешениями для ваших источников. В случае ADLS Gen 2 рассмотрите возможность использования сквозного пароля
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...