Я создаю структурированное потоковое задание, которое сохраняет свои данные в дельта-базе данных блоков данных. Я сталкиваюсь с возможностью сохранения местоположения контрольной точки и данных из базы данных дельты в любом ...
1. нормальное расположение dbfs, такое как "/ delta / mycheckpointlocation" и "delta / mydatabase"
2. смонтированный каталог из озера данных, такой как "/ mnt / mydatalake / delta / mycheckpointlocation" и "/ mnt / mydatalake / delta / mydatabase"
Если я правильно понимаю, данные в nr1 будут сохранены в хранилище больших двоичных объектов, тогда как данные в nr2 будут храниться в озере данных (при условии, что он смонтирован в / mnt / mydatalake)
Какие существуют соображения, чтобы решить хранить такие вещи, как местоположение контрольной точки и дельта-базу данных, в 1 или 2?