В чем разница между dataframe.show () и dataframe.take () в искре?Чтобы увеличить производительность, что нам нужно увеличить? - PullRequest
0 голосов
/ 21 декабря 2018

Я использую кадры данных для чтения данных из файлов паркета и создания временного представления и запуска запросов SQL поверх временных представлений.

spark.read.parquet("filename.parquet").createOrReplaceTempView("temptable")

val df = spark.sql("SELECT * FROM temptable")

для проверки результата df я использую df.show(), но для выполнения требуется больше, и я не вижу никакой разницы, если я использую df.take(10)

Есть ли разница между take() и show(). Какой метод следует использовать для повышения производительности, чтобы проверить результаты

1 Ответ

0 голосов
/ 21 декабря 2018

take() и show() различны.show() печатает результаты, take() возвращает список строк (в PySpark) и может использоваться для создания нового кадра данных.Оба они являются действиями.

Печать результатов

df.show() 

Получение списка строк (PySpark)

sampleList = df.take(10)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...