Самый быстрый способ записать Df в файл паркета на s3 - PullRequest
0 голосов
/ 31 октября 2018

Я читаю данные таблицы с сервера sql и сохраняю их как Dataframe в спринге. Я хочу записать df в файл паркета в s3, так как в таблице около 30 столбцов и 204 миллиона строк, прямо сейчас с помощью spark.write Чтобы записать обратно в s3 в виде файла паркета, требуется около 25-30 минут. Есть ли самый быстрый способ сделать то же самое?

Edit-1 Посоветуйте мне, если у вас есть какой-то лучший подход к тому же, вместо прямой искры .write

...