Как исправить проблему случайного разлива при записи данных в файл паркета hdfs?

Я новичок в spark, я пытаюсь прочитать таблицу из оракула в hdfs файл parquet farmat ... Моя таблица составляет около 100 ГБ, я читаю ее в dataframe, используя spark-sql, и записываю этот dataframe в файл hdfs parquet.Но когда я запускаю эту искровую работу, я вижу около Shuffle Spill 175 ГБ (память) и Shuffle Spill 56 ГБ (диск).Я не делаю каких-либо объединений / групп или по какой-либо причине, почему я получаю этот случайный разлив, как это исправить?

Как исправить проблему случайного разлива при записи данных в файл паркета hdfs?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как исправить проблему случайного разлива при записи данных в файл паркета hdfs?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы