Фреймы данных, созданные с использованием SQL, могут использовать платформу Spark Catalyst.
Используя pyspark (предполагая, что переменная spark
связана с SparkSession
), мы могли бы вызывать SQL, такой как
spark.sql(<sql>)
Это будут проанализированные, оптимизированные и физические планы, созданные в среде Catalyst.
Если датафрейм сконструирован вручную, как spark.table<>.sort(<col>)
, катализатор Spark не вступает в игру.
Если мы хотим использовать инфраструктуру Catalyst для фрейма данных, который не является таблицей, обеспеченной метасторой, мы можем зарегистрировать ее как временную таблицу и использовать SQL для запуска запросов.