На это может быть очевидный ответ, но я не смог найти ничего после долгих поисков.
В типичной программе я обычно добавляю сообщения журнала в различные части кода и определяю, где находится узкое место. Однако в Spark / PySpark преобразования оцениваются лениво, что означает, что большая часть кода выполняется почти за постоянное время (по крайней мере, не зависит от размера набора данных) до тех пор, пока в конце не будет вызвано действие.
Так, как можно было бы синхронизировать отдельные преобразования и, возможно, сделать некоторые части кода более эффективными, если по-другому, где это необходимо и возможно?