Dalganjan Sengar 06 февраля 2019 0

Существуют проблемы с производительностью в кадре данных Spark

1 Ответ

sgungormus / 07 февраля 2019

take(1) более эффективно, чем count().Если вы проверите исходный код RDD;

Возьмите первые num элементов RDD.Он работает, сначала сканируя один раздел, и использует результаты этого раздела, чтобы оценить количество дополнительных разделов, необходимых для удовлетворения ограничения.

Для вашего варианта использования isEmpty() должен быть лучшим вариантом.Его исходный код снова использует take (1);

def isEmpty(): Boolean = withScope {
    partitions.length == 0 || take(1).length == 0
}

...