Как я могу написать в один CSV-файл быстро? - PullRequest
0 голосов
/ 01 октября 2019

Я пытаюсь перераспределить (1) фрейм данных при записи в csv, но он работает более 2 часов. Я пытался перераспределить (20) , но все еще очень медленно. Я думаю, что данные большие, и я новичок в этом, как я могу сделать это быстрее?

df.repartition(20).write.format("com.databricks.spark.csv").option("header", "true").save(filepath)

1 Ответ

0 голосов
/ 01 октября 2019

Вы работаете в нем на локальном компьютере или удаленно? Это автономный кластер / кластер пряжи, сколько у вас машин.

Вы можете проверить в Spark UI, чтобы посмотреть, сколько разделов? Для каждой машины у вас должно быть не менее 3 * 4 разделов - maxcan увеличится до 10000

Вместо того, чтобы перераспределять, объедините (1) только для одного раздела, это приведет к меньшему перемешиванию, и работа будет выполняться быстро. перераспределение вызывает больше перетасовки.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...