Как исправить проблему случайного разлива при записи данных в файл паркета hdfs? - PullRequest
0 голосов
/ 26 декабря 2018

Я новичок в spark, я пытаюсь прочитать таблицу из оракула в hdfs файл parquet farmat ... Моя таблица составляет около 100 ГБ, я читаю ее в dataframe, используя spark-sql, и записываю этот dataframe в файл hdfs parquet.Но когда я запускаю эту искровую работу, я вижу около Shuffle Spill 175 ГБ (память) и Shuffle Spill 56 ГБ (диск).Я не делаю каких-либо объединений / групп или по какой-либо причине, почему я получаю этот случайный разлив, как это исправить?

...