Я новичок в Apache Spark и использую версию 2.4.3, предварительно созданную для Hadoop 2.7.Мне нужно собрать информацию о разделе RDD в кеше.Я хотел бы получить из SparkContext sc
ту же информацию, которую я вижу в веб-интерфейсе, на вкладку «Хранилище» -> страница сведений RDD и, в частности, Block Name
, Storage Level
, Size in Memory
, Size on Disk
, Executors
для каждогоСДР кешируется.
Я пытался вызвать getRDDStorageInfo
с Spark Context
, но он возвращает RDDInfo
объекты только с количеством разделов, но не с подробностями раздела.
scala> sc.getRDDStorageInfo
res17: Array[org.apache.spark.storage.RDDInfo] = Array(RDD "small RDD" (0) StorageLevel: StorageLevel(memory, deserialized, 1 replicas); CachedPartitions: 4; TotalPartitions: 4; MemorySize: 232.0 B; DiskSize: 0.0 B)
Есть ли способ получить сведения о разделах для каждого существующего раздела из контекста Spark?