Каков предел размера данных DBFS в Azure Databricks - PullRequest
0 голосов
/ 26 мая 2020

Я прочитал здесь , что ограничение на хранение для AWS Databricks составляет 5 ТБ для отдельного файла, и мы можем хранить столько файлов, сколько захотим. Применяется ли такое же ограничение к Azure Databricks? или существует ли какое-то другое ограничение на Azure Databricks?

Обновление:

@ CHEEKATLAPRADEEP Спасибо за объяснение, но может ли кто-нибудь поделиться причинами: "мы рекомендуем хранить данные в подключенном объектном хранилище, а не в DBFS. root"

Мне нужно использовать DirectQuery (из-за огромного размера данных) в Power BI, а ADLS этого не делает поддержите это на данный момент.

Ответы [ 2 ]

0 голосов
/ 27 мая 2020

Важное примечание: Несмотря на то, что DBFS root имеет возможность записи, мы рекомендуем хранить данные в хранилище подключенных объектов, а не в DBFS root.

Причина, по которой рекомендуется хранить данные в подключенной учетной записи хранения, а не в учетной записи хранения, находится в рабочей области ADB.

Reason1: У вас нет разрешения на запись, когда вы используете ту же учетную запись хранения извне через Storage Explorer.

Причина 2: Вы не может использовать те же учетные записи хранения для другой рабочей области ADB или использовать ту же службу, связанную с учетной записью хранения, для Azure фабрики данных или Azure рабочей области synapse.

Причина 3: В будущем вы решили использовать Azure рабочие пространства Synapse вместо ADB.

Причина 4: Что, если вы хотите удалить существующее рабочее пространство.

Файловая система Databricks (DBFS) - это распределенная файловая система, подключенная к рабочему пространству Azure Databricks и доступная в кластерах Azure Databricks. DBFS - это абстракция поверх масштабируемого хранилища объектов, то есть ADLS gen2.

Нет ограничений на объем данных, которые вы можете хранить в Azure Data Lake Storage Gen2.

Примечание : Azure Data Lake Storage Gen2 может хранить и обслуживать много эксабайт данных.

Для Azure файловой системы Databricks (DBFS) - Поддерживаются только файлы размером менее 2 ГБ .

Примечание: Если вы используете API-интерфейсы ввода-вывода локальных файлов для чтения или записи файлов размером более 2 ГБ вы можете увидеть поврежденные файлы. Вместо этого обращайтесь к файлам размером более 2 ГБ с помощью интерфейса командной строки DBFS, dbutils.fs или Spark API или используйте папку / dbfs / ml.

Для Azure Хранилище - Максимум емкость учетной записи хранения составляет 5 ПиБ Петабайт.

В следующей таблице описаны ограничения по умолчанию для Azure универсальных учетных записей v1, v2, хранилища BLOB-объектов и учетных записей хранения блочных BLOB-объектов. Предел входящего трафика относится ко всем данным, которые отправляются в учетную запись хранения. Предел исходящего трафика относится ко всем данным, полученным от учетной записи хранения.

enter image description here

Примечание. Ограничение на единичный блочный BLOB-объект 4,75 ТБ .

enter image description here

0 голосов
/ 26 мая 2020

В документации по Databricks указано:

Поддерживаются только файлы размером менее 2 ГБ. Если вы используете API-интерфейсы ввода-вывода локальных файлов для чтения или записи файлов размером более 2 ГБ, вы можете увидеть поврежденные файлы. Вместо этого обращайтесь к файлам размером более 2 ГБ с помощью интерфейса командной строки DBFS, dbutils

Подробнее см. Здесь: https://docs.microsoft.com/en-us/azure/databricks/data/databricks-file-system

...