Какой простой и лучший способ разархивировать файлы в озере данных Azure Gen1 без перемещения файлов в файловую систему Azure Databricks? - PullRequest
1 голос
/ 20 июня 2019

Как лучше всего разархивировать файлы в озере данных Azure Gen1 без перемещения файлов в файловую систему Azure Databricks? В настоящее время мы используем блоки данных Azure для вычислений и ADLS для хранения. У нас есть ограничение на перемещение данных в DBFS.

Уже смонтирован ADLS в DBFS и не уверен, как действовать

1 Ответ

0 голосов
/ 26 июня 2019

К сожалению, в Databricks zip-файлы не поддерживаются, причина в том, что Hadoop не поддерживает zip-файлы в качестве кодека сжатия.Хотя текстовый файл в GZip, BZip2 и других поддерживаемых форматах сжатия можно настроить на автоматическую распаковку в Spark, если он имеет правильное расширение файла, необходимо выполнить дополнительные действия для чтения файлов ZIP.Пример в документации Databricks выполняет распаковку на узле драйвера с помощью распаковки на уровне ОС (Ubuntu).

Если ваш источник данных не может предоставить данные в поддерживаемом кодеке сжатияПо Spark, лучший метод - использовать операцию копирования фабрики данных Azure.Azure Data Factory поддерживает больше кодеков сжатия, также поддерживается zip.

Определение свойства типа для источника будет выглядеть следующим образом:

"typeProperties": {
        "compression": {
            "type": "ZipDeflate",
            "level": "Optimal"
        },

Вы также можете использовать фабрику данных Azure для управления вашими конвейерами Databricks с действиями Databricks.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...