Сначала настройте Среду выполнения Databricks, чтобы использовать каталог данных AWS Glue в качестве своего метасредства, а затем перенастройте дельта-таблицу.
Каждое развертывание Databricks имеет центральное метасторье Hive, доступное для всех кластеров, для сохранения метаданных таблицы. Вместо того, чтобы использовать метасторое Hive Databricks Hive, у вас есть возможность использовать существующий внешний экземпляр метастафа Hive или каталог клея AWS.
Файловая система блоков данных (DBFS) - это распределенная файловая система, смонтированная в рабочем пространстве Databricks и доступная в кластерах Databricks. DBFS представляет собой абстракцию поверх масштабируемого хранилища объектов и предлагает следующие преимущества:
- Позволяет монтировать объекты хранилища, чтобы вы могли беспрепятственно получать доступ к данным, не требуя учетных данных.
- Позволяет вамвзаимодействовать с хранилищем объектов, используя семантику каталогов и файлов вместо URL-адресов хранилищ.
- Сохраняет файлы в хранилище объектов, поэтому вы не потеряете данные после завершения работы кластера.
Есть ли способ найти местоположение S3 для пути DBFS, на который указана база данных?
Вы можете получить доступ к корзине AWS S3, подключив корзины с использованием DBFS или напрямую с помощью API.
Ссылка: " Базы данных - Amazon S3 "
Надеюсь, это поможет.