50 ГБ - это данные, которые могут поместиться в памяти, и вам, вероятно, не нужен Spark для данных такого типа - они будут работать медленнее, чем другие решения.
Также в зависимости от задания и формата данных, много В некоторых случаях не все данные должны быть считаны в память (например, чтение только нужных столбцов из столбчатого формата хранения, такого как паркет)
Вообще-то, когда данные не помещаются в память, Spark записывает временные файлы в диск. вам может потребоваться настроить работу на более мелкие разделы, чтобы каждый отдельный раздел помещался в памяти. см. Настройка памяти Spark
Арнон