take(1)
более эффективно, чем count()
.Если вы проверите исходный код RDD;
Возьмите первые num элементов RDD.Он работает, сначала сканируя один раздел, и использует результаты этого раздела, чтобы оценить количество дополнительных разделов, необходимых для удовлетворения ограничения.
Для вашего варианта использования isEmpty()
должен быть лучшим вариантом.Его исходный код снова использует take (1);
def isEmpty(): Boolean = withScope {
partitions.length == 0 || take(1).length == 0
}