Я хочу загрузить данные из On Premise SQL SERVER в хранилище больших двоичных объектов с активностью копирования в ADF, целевой файл - паркет, размер этого файла - 5 ГБ.
Конвейер работает хорошо, и он написал один файл паркета, теперь мне нужно разделить этот файл на несколько файлов паркета, чтобы оптимизировать загрузку данных с помощью базы Poly и для другого использования.
С помощью Spark мы можем разбить файл на несколько файлов следующим синтаксисом:
df.repartition (5) .write.parquet ( "путь")