Question

Я хочу загрузить данные из On Premise SQL SERVER в хранилище больших двоичных объектов с активностью копирования в ADF, целевой файл - паркет, размер этого файла - 5 ГБ.

Конвейер работает хорошо, и он написал один файл паркета, теперь мне нужно разделить этот файл на несколько файлов паркета, чтобы оптимизировать загрузку данных с помощью базы Poly и для другого использования.

С помощью Spark мы можем разбить файл на несколько файлов следующим синтаксисом:

df.repartition (5) .write.parquet ( "путь")

Martin Esteban Zurita · Answer 1 · 22 мая 2019

Короткий вопрос, короткий ответ.

Секционированные данные: https://docs.microsoft.com/en-us/azure/data-factory/how-to-read-write-partitioned-data

Формат паркета: https://docs.microsoft.com/en-us/azure/data-factory/format-parquet

Разъем для хранения блобов: https://docs.microsoft.com/en-us/azure/data-factory/connector-azure-blob-storage

Надеюсь, это помогло!

Как записать разделенные файлы паркета в хранилище BLOB-объектов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как записать разделенные файлы паркета в хранилище BLOB-объектов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы