У меня сбой этапа выполнения из-за ошибки нехватки памяти. Как определить строки исходного кода pyspark, отвечающие за стадию сбоя?
Я использовал веб-интерфейс для просмотра физического плана, который дает некоторую информацию, поскольку он ссылается на имена переменных из исходного кода. Я также посмотрел на DAG за провал этапа. Однако мне не удалось связать детали DAG с физическим планом.
Я использую Pyspark 2.4.3 и использую API Dataframe.