Spark считывает данные непосредственно в память и / или на диск в зависимости от того, используете ли вы RDD или DataFrame.У вас должно быть как минимум достаточно диска для хранения всех данных.Если вы выполняете соединения, то количество необходимого диска увеличивается для обработки случайных разливов.
Это уравнение изменяется, если вы отбрасываете значительный объем данных посредством фильтрации.
Используете ли вы pd-standard, pd-ssd или local-ssd сводятся к стоимости, и если ваше приложение связано с процессором или вводом-выводом.
Дисковый IOPS пропорционален размеру диска, поэтому очень маленькие диски нежелательны.Имейте в виду, что диск (относительно процессора) дешевый.
Тот же совет относится к сетевому вводу-выводу: больше процессоров = больше пропускной способности.
Наконец, настройки Dataproc по умолчанию являются разумным местом для начала экспериментов.и настройки ваших настроек.
Источник: https://cloud.google.com/compute/docs/disks/performance