Необходимость хранилища BLOB-объектов Azure в блоках данных Azure с кластерами Spark - PullRequest
0 голосов
/ 05 марта 2019

Я работаю с кластерами Spark в экосистеме Azure Databricks, с которой связано хранилище BLOB-объектов Azure. Также существует Файловая система Databricks (DBFS), связанная с Databricks. Я хотел бы знать, нужно ли иметь хранилище BLOB-объектов Azure для хранения данных? Разве DBFS недостаточно для хранения файлов / данных?

1 Ответ

0 голосов
/ 05 марта 2019

Насколько мне известно и документация Azure Databricks использует хранилище BLOB-объектов Azure через DBFS.Отвечая на ваш вопрос - нет, в этом нет необходимости, этого достаточно.Ваши данные будут сохранены в любом случае.Я бы порекомендовал создать дополнительную (с явным именем) учетную запись для хранения больших двоичных объектов, если вы планируете использовать хранимые данные с каким-либо другим приложением, кроме записной книжки, например с заданием spark на кластере HDInsight.

...