Это, безусловно, не новая тема; например, здесь есть соответствующая запись:
SparkUI для pyspark - соответствующая строка кода для каждого этапа?
но пока я не видел хорошего ответа на этот вопрос. Более конкретно:
Имея проблемы с определенными этапами работы, я пытаюсь сосредоточиться на оскорбительном фрагменте моего кода pyspark. Обычно я смотрю на группу обеспечения доступности баз данных и ищу соответствующие имена полей, чтобы выяснить, что выполняется.
Однако иногда DAG содержит только общие имена операций:
Да, есть объединение, но в моем коде десятки объединений.
Поиск номеров RDD в различных планах на вкладке SQL также ничего не дает. Итак, какие еще варианты у меня есть?
Спасибо