Как определить строки кода pyspark, участвующего в неудачной стадии? - PullRequest
0 голосов
/ 01 октября 2019

У меня сбой этапа выполнения из-за ошибки нехватки памяти. Как определить строки исходного кода pyspark, отвечающие за стадию сбоя?

Я использовал веб-интерфейс для просмотра физического плана, который дает некоторую информацию, поскольку он ссылается на имена переменных из исходного кода. Я также посмотрел на DAG за провал этапа. Однако мне не удалось связать детали DAG с физическим планом.

Я использую Pyspark 2.4.3 и использую API Dataframe.

1 Ответ

0 голосов
/ 02 октября 2019

последняя ошибка, которую вы упомянули: Java heap space. Вы должны разрешить больше ресурсов вашим исполнителям. Там не 1 строка разрыва, это целое!

...