RDD.toDebugString предоставит вам необходимую информацию:
val a = sc.parallelize(1 to 5)
println(a.toDebugString)
отпечатки
(4) ParallelCollectionRDD[0] at parallelize at Test.scala:31 []
Вы можете найти более подробную информацию о том, как интерпретировать отладкустрока здесь .
Строка отладки содержит группу DAG без данных. Нет функции Spark, которая будет «записывать» все операции, включая данные. Если необходимо сохранить данные, можно попытаться перехватить Spark API с помощью AspectJ , но это потребует значительного объема работы.