В чем разница между перезаписью и добавлением в паркет - PullRequest
0 голосов
/ 26 декабря 2018

В чем разница между добавлением и перезаписью к паркету в искре.Я обрабатываю огромное количество данных, скажем, 10 дней.В настоящее время я обрабатываю ежедневные журналы в файлы паркета, используя метод "append", и разбиваю данные на основе даты.Но проблема, с которой я сталкиваюсь, заключается в том, что ежедневные данные также очень огромны и занимают много времени, способствуя высокой загрузке процессора, а также обработке данных с использованием кластера EMR.Это делает мою работу очень медленной и дорогой.Поэтому я ищу способ дальнейшего разделения данных и объединения данных в дневной кластер.

1 Ответ

0 голосов
/ 26 декабря 2018

Пожалуйста, смотрите документацию по SaveMode https://spark.apache.org/docs/latest/api/java/index.html

...