Любой API для получения данных по запросу DAG на вкладке Spark UI SQL - PullRequest
0 голосов
/ 05 марта 2019

В пользовательском интерфейсе spark есть вкладка SQL.Он может отображать детали запроса в виде группы доступности базы данных

https://www.cloudera.com/documentation/enterprise/5-9-x/topics/operation_spark_applications.html

. После завершения приложения группа доступности базы данных также аннотирует свои узлы статистической информацией.Например,

number of output rows: 155,418,058

peak memory total (min, med, max): 
24.1 GB (704.0 MB, 704.0 MB, 704.0 MB)

aggregate time total (min, med, max): 
15.6 m (20.8 s, 25.5 s, 42.1 s)

Exchange data size total (min, med, max): 
1350.1 MB (2.2 MB, 2.3 MB, 2.3 MB)

Есть ли у Spark какой-либо API для получения метик?Spark имеет https://spark.apache.org/docs/latest/monitoring.html#executor-task-metrics, доступ к которому осуществляется через API RESTful.А на вкладке этапа в Spark UI также отображаются «Сводные показатели» для каждой задачи.Однако

1) Я не уверен, как связать идентификатор задачи с RDD или узлами в запросе DAG

2) метрика Peak Execution Memory всегда равна 0, тогда как, как мы видим, SQLна вкладке может отображаться

peak memory total (min, med, max): 
24.1 GB (704.0 MB, 704.0 MB, 704.0 MB)

Другой вопрос - как читать метрики на узлах DAG.Например,

peak memory total (min, med, max): 
24.1 GB (704.0 MB, 704.0 MB, 704.0 MB)

Является ли min, med, max для узла?Его значение намного меньше, чем общее 24,1G ...

...