Как записать разделенные файлы паркета в хранилище BLOB-объектов - PullRequest
0 голосов
/ 22 мая 2019

Я хочу загрузить данные из On Premise SQL SERVER в хранилище больших двоичных объектов с активностью копирования в ADF, целевой файл - паркет, размер этого файла - 5 ГБ.

Конвейер работает хорошо, и он написал один файл паркета, теперь мне нужно разделить этот файл на несколько файлов паркета, чтобы оптимизировать загрузку данных с помощью базы Poly и для другого использования.

С помощью Spark мы можем разбить файл на несколько файлов следующим синтаксисом:

df.repartition (5) .write.parquet ( "путь")

1 Ответ

0 голосов
/ 22 мая 2019

Короткий вопрос, короткий ответ.

Секционированные данные: https://docs.microsoft.com/en-us/azure/data-factory/how-to-read-write-partitioned-data

Формат паркета: https://docs.microsoft.com/en-us/azure/data-factory/format-parquet

Разъем для хранения блобов: https://docs.microsoft.com/en-us/azure/data-factory/connector-azure-blob-storage

Надеюсь, это помогло!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...