Существуют проблемы с производительностью в кадре данных Spark - PullRequest
0 голосов
/ 06 февраля 2019

Что рекомендуется и почему в отношении производительности spark.dataframe.count () или spark.dataframe.take (1).

1 Ответ

0 голосов
/ 07 февраля 2019

take(1) более эффективно, чем count().Если вы проверите исходный код RDD;

Возьмите первые num элементов RDD.Он работает, сначала сканируя один раздел, и использует результаты этого раздела, чтобы оценить количество дополнительных разделов, необходимых для удовлетворения ограничения.

Для вашего варианта использования isEmpty() должен быть лучшим вариантом.Его исходный код снова использует take (1);

def isEmpty(): Boolean = withScope {
    partitions.length == 0 || take(1).length == 0
}
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...