Найти количество разделов, рассчитанных на машину в Apache Spark - PullRequest
0 голосов
/ 28 июня 2019

В настоящее время я изучаю возможность дисбаланса рабочей нагрузки в моих кластерах Apache Spark. Можно ли увидеть количество разделов, назначенных на машину, в пользовательском интерфейсе Apache Spark или на сервере истории?

1 Ответ

2 голосов
/ 28 июня 2019

Я не уверен насчет пользовательского интерфейса Spark, но вот как вы можете достичь этого программно -

def partitionsComputed(): Unit ={
    import java.net.InetAddress
    import org.apache.spark.TaskContext

    sc.parallelize(1 to 10, 3).mapPartitions(_ => {
      val ctx = TaskContext.get
      val partId = ctx.partitionId
      val hostName = InetAddress.getLocalHost.getHostName
      Iterator.apply[(String,Int)]((hostName,partId))
    })
      .groupByKey()
      .foreach(m => println("Hostname-"+m._1+" , Number of Partitions Computed-"+m._2.size))
  }

Результат будет напечатан в сводном журнале применения искры. Вы можете собрать результат и распечатать его на приводном узле.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...