Я пытаюсь исследовать запутанные задачи в своем задании PySpark (задачи, которые занимают намного больше времени, чем задачи p50 / p75), чтобы понять, почему некоторые задачи выполняются намного дольше по сравнению с другими задачами на той же стадии.
Стандартный профилировщик PySpark предоставляет статистическую статистику для СДР, но есть ли способ получить профилирующую статистику на уровне задачи?