К сожалению, в Databricks zip-файлы не поддерживаются, причина в том, что Hadoop не поддерживает zip-файлы в качестве кодека сжатия.Хотя текстовый файл в GZip, BZip2 и других поддерживаемых форматах сжатия можно настроить на автоматическую распаковку в Spark, если он имеет правильное расширение файла, необходимо выполнить дополнительные действия для чтения файлов ZIP.Пример в документации Databricks выполняет распаковку на узле драйвера с помощью распаковки на уровне ОС (Ubuntu).
Если ваш источник данных не может предоставить данные в поддерживаемом кодеке сжатияПо Spark, лучший метод - использовать операцию копирования фабрики данных Azure.Azure Data Factory поддерживает больше кодеков сжатия, также поддерживается zip.
Определение свойства типа для источника будет выглядеть следующим образом:
"typeProperties": {
"compression": {
"type": "ZipDeflate",
"level": "Optimal"
},
Вы также можете использовать фабрику данных Azure для управления вашими конвейерами Databricks с действиями Databricks.