Это ожидаемое поведение.
В отличие от RDD
API, который обеспечивает собственную логику Python, DataFrame
/ SQL
API являются собственными JVM.Если вы не вызываете Python udf
* (включая pandas_udf
), на рабочих машинах код Python не выполняется.Все, что делается на стороне Python, - это простые вызовы API через шлюз Py4j.
Поэтому никакой информации о профилировании не существует.
* Обратите внимание, что udf
кажетсябыть исключенным из профилирования.