У меня есть 40 ГБ CSV-файлов. Прочитав их, мне нужно выполнить серию преобразований. Одним из них является взрыв колонны. После этой трансформации я получаю разлитую смесь, изображенную ниже. Я понимаю, почему это так. Взрыв основан на поиске переменной вещания, который дает очень искаженный набор результатов.
Мой вопрос - как я могу смягчить разлив? Я попытался перераспределить до функции explode
, настроив параметр конфигурации spark.sql.shuffle.partitions
, чтобы гарантировать, что разделы в случайном порядке имеют одинаковый размер, но это не помогло.
Любые предложения или литература по темам c будет принята с благодарностью!
