Я пытаюсь выполнить некоторые тесты сортировки с помощью Apache Spark.
...
for (...){
Parts = *Generate some RDDs of Integers with some GBs*
}
// Create a huge RDD of Array[Int]
var rdd = sc.union(Parts).persist(StorageLevel.MEMORY_AND_DISK_SER)
// Repartition
rdd.coalesce(partitionsNum).persist(StorageLevel.MEMORY_AND_DISK_SER)
// Sort
var rdd = rdd.sortBy(x => x, numPartitions = partitions).persist(StorageLevel.MEMORY_AND_DISK_SER)
Моя цель в этом тесте - записать время выполнения генерации RDD (Parts + Union) и сортировки RDD.Если я хочу превратить этот код в лень, я должен выполнить Действие , например count ().
Как я могу сделать этот тест лени с наименьшими затратами?Является ли интерфейс Spark лучшим способом для записи времени выполнения?