Есть ли способ получить доступ к информации о разделах RDD из Spark Context? - PullRequest
2 голосов
/ 08 июня 2019

Я новичок в Apache Spark и использую версию 2.4.3, предварительно созданную для Hadoop 2.7.Мне нужно собрать информацию о разделе RDD в кеше.Я хотел бы получить из SparkContext sc ту же информацию, которую я вижу в веб-интерфейсе, на вкладку «Хранилище» -> страница сведений RDD и, в частности, Block Name, Storage Level, Size in Memory, Size on Disk, Executors для каждогоСДР кешируется.

Я пытался вызвать getRDDStorageInfo с Spark Context, но он возвращает RDDInfo объекты только с количеством разделов, но не с подробностями раздела.

scala> sc.getRDDStorageInfo
res17: Array[org.apache.spark.storage.RDDInfo] = Array(RDD "small RDD" (0) StorageLevel: StorageLevel(memory, deserialized, 1 replicas); CachedPartitions: 4; TotalPartitions: 4; MemorySize: 232.0 B; DiskSize: 0.0 B)

Есть ли способ получить сведения о разделах для каждого существующего раздела из контекста Spark?

...