У меня есть работа Spark, которая читает файл CSV и выполняет несколько объединений и переименовывает столбцы.Размер файла в МБ
x = info_collect.collect () * Размер 1003 * x в python составляет около 100 МБ
, однако я получаю сбой памяти, проверяя Ганглу, что память увеличивается на 80 ГБ.Я понятия не имею, почему коллекция 100 МБ может вызвать скачок памяти.
Может кто-нибудь посоветуете совет?