Хранилище данных Azure или озеро данных - PullRequest
0 голосов
/ 19 ноября 2018

Я создаю структурированное потоковое задание, которое сохраняет свои данные в дельта-базе данных блоков данных. Я сталкиваюсь с возможностью сохранения местоположения контрольной точки и данных из базы данных дельты в любом ... 1. нормальное расположение dbfs, такое как "/ delta / mycheckpointlocation" и "delta / mydatabase" 2. смонтированный каталог из озера данных, такой как "/ mnt / mydatalake / delta / mycheckpointlocation" и "/ mnt / mydatalake / delta / mydatabase"

Если я правильно понимаю, данные в nr1 будут сохранены в хранилище больших двоичных объектов, тогда как данные в nr2 будут храниться в озере данных (при условии, что он смонтирован в / mnt / mydatalake)

Какие существуют соображения, чтобы решить хранить такие вещи, как местоположение контрольной точки и дельта-базу данных, в 1 или 2?

1 Ответ

0 голосов
/ 21 февраля 2019

Расположение DBFS является частью вашего рабочего пространства. Поэтому, если вы отбросите рабочее пространство, вы потеряете его. Озеро является общим, поэтому к нему может подключиться множество вещей, включая другие рабочие области Databricks или другие службы (например, ADF). В этом нет ничего правильного или неправильного - чистое предпочтение.

...