Question

В пользовательском интерфейсе spark есть вкладка SQL.Он может отображать детали запроса в виде группы доступности базы данных

https://www.cloudera.com/documentation/enterprise/5-9-x/topics/operation_spark_applications.html

. После завершения приложения группа доступности базы данных также аннотирует свои узлы статистической информацией.Например,

number of output rows: 155,418,058

peak memory total (min, med, max): 
24.1 GB (704.0 MB, 704.0 MB, 704.0 MB)

aggregate time total (min, med, max): 
15.6 m (20.8 s, 25.5 s, 42.1 s)

Exchange data size total (min, med, max): 
1350.1 MB (2.2 MB, 2.3 MB, 2.3 MB)

Есть ли у Spark какой-либо API для получения метик?Spark имеет https://spark.apache.org/docs/latest/monitoring.html#executor-task-metrics, доступ к которому осуществляется через API RESTful.А на вкладке этапа в Spark UI также отображаются «Сводные показатели» для каждой задачи.Однако

1) Я не уверен, как связать идентификатор задачи с RDD или узлами в запросе DAG

2) метрика Peak Execution Memory всегда равна 0, тогда как, как мы видим, SQLна вкладке может отображаться

peak memory total (min, med, max): 
24.1 GB (704.0 MB, 704.0 MB, 704.0 MB)

Другой вопрос - как читать метрики на узлах DAG.Например,

peak memory total (min, med, max): 
24.1 GB (704.0 MB, 704.0 MB, 704.0 MB)

Является ли min, med, max для узла?Его значение намного меньше, чем общее 24,1G ...

Любой API для получения данных по запросу DAG на вкладке Spark UI SQL

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Любой API для получения данных по запросу DAG на вкладке Spark UI SQL

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы