Поскольку pyspark лениво оценивается всякий раз, когда вы применяете .select или .drop, они не выполняются прямо здесь и добавляются в DAG и будут выбраны позже после применения действия к фрейму данных.
Итак, вы можете фильтровать по невыбранному столбцу также до тех пор, пока к кадру данных не применяется действие.
Что касается памяти, то искра ничего не считывает в памяти, пока действие не будет выполнено, а только создает DAG, и только после того, как вы выполните действие, вещи начинают попадать в память.