Если я правильно понимаю ваш вопрос:
В общем - ваши скриптовые сценарии совпадают с обычным кодом.Но есть некоторые различия.Когда вы запускаете spark, большая часть вашего кода оценивается лениво и выполняется только для действий (таких как сбор, показ, подсчет и т. Д.).Но перед выполнением изнутри эти операции оптимизируются и могут выполняться не в том порядке, в котором они выполняются в сценарии.В примере - фильтры смещены вверх по потоку.Этот курс хорош для общего понимания: https://courses.edx.org/courses/BerkeleyX/CS100.1x/1T2015/course/ (конечно, есть и другие, более новые ресурсы).
И если говорить о Py-Spark - это всего лишь API для Spark Framework, и вы можете иметькод, который запускается Python, а затем вызывает Py-Spark для обработки данных.