Apache Spark RDD + упорство () + лень - PullRequest
       27

Apache Spark RDD + упорство () + лень

0 голосов
/ 18 сентября 2018

Я пытаюсь выполнить некоторые тесты сортировки с помощью Apache Spark.

...
for (...){
   Parts = *Generate some RDDs of Integers with some GBs*
}
// Create a huge RDD of Array[Int]
var rdd = sc.union(Parts).persist(StorageLevel.MEMORY_AND_DISK_SER)

// Repartition
rdd.coalesce(partitionsNum).persist(StorageLevel.MEMORY_AND_DISK_SER)

// Sort
var rdd = rdd.sortBy(x => x, numPartitions = partitions).persist(StorageLevel.MEMORY_AND_DISK_SER)

Моя цель в этом тесте - записать время выполнения генерации RDD (Parts + Union) и сортировки RDD.Если я хочу превратить этот код в лень, я должен выполнить Действие , например count ().

Как я могу сделать этот тест лени с наименьшими затратами?Является ли интерфейс Spark лучшим способом для записи времени выполнения?

...