Наилучшая практика, которой следует следовать при чтении данных из блоков данных azure datalake gen1 - azure - PullRequest
0 голосов
/ 27 февраля 2020

Я новичок в azure кирпичей данных. Я пытался прочитать данные из datalake в блоки данных. Я обнаружил, что в основном есть два метода

  1. Монтирование файла, присутствующего в datalake, в dbfs (преимущество заключается в том, что аутентификация требуется только один раз)
  2. Использование принципала обслуживания и OAuth (аутентификация требуется для каждого запроса )

Мне интересно знать, есть ли значительное потребление памяти, когда мы решаем монтировать папки в dbfs. Я узнал, что смонтированные данные сохраняются. Я предполагаю, что это может привести к некоторому потреблению памяти. Я хотел бы, если кто-нибудь может объяснить мне, что происходит на сервере, когда мы монтируем файл в dbfs

1 Ответ

0 голосов
/ 27 февраля 2020

Вопрос о постоянных данных:

Насколько я понял, основываясь на документации dbfs , данные считываются из точки монтирования через dbfs не сохраняется:

"Данные, записанные в пути точек монтирования (/ mnt), хранятся за пределами DBFS root. Несмотря на то, что DBFS root доступна для записи, мы рекомендуем хранить данные в хранилище смонтированных объектов, а не в DBFS root. "

Вместо этого вы можете записывать данные непосредственно в DBFS (под капотом, просто учетная запись хранения), и эти данные будет сохраняться между перезапусками вашего кластера. Например, вы можете хранить некоторые примеры данных непосредственно в DBFS.

Наилучшая практика с Data Lake Gen 1

Поскольку не должно быть никаких последствий для производительности, я не Не знаю, есть ли "лучшая практика" в целом. Исходя из моего опыта, полезно иметь в виду, что оба решения могут показаться запутанными для новых пользователей, которые не знают, как проходила аутентификация.

...