Я использую кадры данных для чтения данных из файлов паркета и создания временного представления и запуска запросов SQL поверх временных представлений.
spark.read.parquet("filename.parquet").createOrReplaceTempView("temptable")
val df = spark.sql("SELECT * FROM temptable")
для проверки результата df
я использую df.show()
, но для выполнения требуется больше, и я не вижу никакой разницы, если я использую df.take(10)
Есть ли разница между take()
и show()
. Какой метод следует использовать для повышения производительности, чтобы проверить результаты