как читать ShuffledRDD с контрольной точки в спарк - PullRequest
0 голосов
/ 28 февраля 2020
val pairs = sc.parallelize(Array((1,2),(2,2),(3,2)))
val partitioned = pairs.partitionBy(new HashPartitioner(2)).persist
sc.setCheckpointDir(dir)
partitioned.checkpoint()
partitioned.take(1)

ShuffledRDD приводится к ReliableCheckpointRDD и сохраняется в HDFS.

Однако, когда я пытаюсь прочитать контрольную точку из HDFS и приведу ее к ShuffledRDD. Есть ошибка:

org. apache .spark.rdd.ReliableCheckpointRDD не может быть преобразован в org. apache .spark.rdd.ShuffledRDD

Is есть ли способ привести контрольную точку чтения из HDFS и привести ее к типу ShuffledRDD?

Заранее спасибо.

...