Question

Как лучше всего разархивировать файлы в озере данных Azure Gen1 без перемещения файлов в файловую систему Azure Databricks? В настоящее время мы используем блоки данных Azure для вычислений и ADLS для хранения. У нас есть ограничение на перемещение данных в DBFS.

Уже смонтирован ADLS в DBFS и не уверен, как действовать

Hauke Mallow · Answer 1 · 26 июня 2019

К сожалению, в Databricks zip-файлы не поддерживаются, причина в том, что Hadoop не поддерживает zip-файлы в качестве кодека сжатия.Хотя текстовый файл в GZip, BZip2 и других поддерживаемых форматах сжатия можно настроить на автоматическую распаковку в Spark, если он имеет правильное расширение файла, необходимо выполнить дополнительные действия для чтения файлов ZIP.Пример в документации Databricks выполняет распаковку на узле драйвера с помощью распаковки на уровне ОС (Ubuntu).

Если ваш источник данных не может предоставить данные в поддерживаемом кодеке сжатияПо Spark, лучший метод - использовать операцию копирования фабрики данных Azure.Azure Data Factory поддерживает больше кодеков сжатия, также поддерживается zip.

Определение свойства типа для источника будет выглядеть следующим образом:

"typeProperties": {
        "compression": {
            "type": "ZipDeflate",
            "level": "Optimal"
        },

Вы также можете использовать фабрику данных Azure для управления вашими конвейерами Databricks с действиями Databricks.

Какой простой и лучший способ разархивировать файлы в озере данных Azure Gen1 без перемещения файлов в файловую систему Azure Databricks?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Какой простой и лучший способ разархивировать файлы в озере данных Azure Gen1 без перемещения файлов в файловую систему Azure Databricks?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы