pyspark собирать, заставляя память снимать 80GB - PullRequest
0 голосов
/ 24 сентября 2018

У меня есть работа Spark, которая читает файл CSV и выполняет несколько объединений и переименовывает столбцы.Размер файла в МБ

x = info_collect.collect () * Размер 1003 * x в python составляет около 100 МБ

, однако я получаю сбой памяти, проверяя Ганглу, что память увеличивается на 80 ГБ.Я понятия не имею, почему коллекция 100 МБ может вызвать скачок памяти.

Может кто-нибудь посоветуете совет?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...