Какое ведро s3 использует DBFS? Как я могу получить местоположение S3 пути DBFS - PullRequest
0 голосов
/ 04 октября 2019

Я пытаюсь перенести метаданные Hive в Glue. При переносе дельта-таблицы, когда я предоставляю тот же путь dbfs, я получаю сообщение об ошибке: «Невозможно создать таблицу: соответствующее местоположение не пусто.

Когда я пытаюсь создать ту же дельта-таблицу нарасположение S3, где оно работает правильно.

Есть ли способ найти расположение S3 для пути DBFS, на который указана база данных?

1 Ответ

0 голосов
/ 30 октября 2019

Сначала настройте Среду выполнения Databricks, чтобы использовать каталог данных AWS Glue в качестве своего метасредства, а затем перенастройте дельта-таблицу.

Каждое развертывание Databricks имеет центральное метасторье Hive, доступное для всех кластеров, для сохранения метаданных таблицы. Вместо того, чтобы использовать метасторое Hive Databricks Hive, у вас есть возможность использовать существующий внешний экземпляр метастафа Hive или каталог клея AWS.

Файловая система блоков данных (DBFS) - это распределенная файловая система, смонтированная в рабочем пространстве Databricks и доступная в кластерах Databricks. DBFS представляет собой абстракцию поверх масштабируемого хранилища объектов и предлагает следующие преимущества:

  • Позволяет монтировать объекты хранилища, чтобы вы могли беспрепятственно получать доступ к данным, не требуя учетных данных.
  • Позволяет вамвзаимодействовать с хранилищем объектов, используя семантику каталогов и файлов вместо URL-адресов хранилищ.
  • Сохраняет файлы в хранилище объектов, поэтому вы не потеряете данные после завершения работы кластера.

Есть ли способ найти местоположение S3 для пути DBFS, на который указана база данных?

Вы можете получить доступ к корзине AWS S3, подключив корзины с использованием DBFS или напрямую с помощью API.

Ссылка: " Базы данных - Amazon S3 "

Надеюсь, это поможет.

...