Spark: отчетность по общему объему и доступной памяти кластера - PullRequest
0 голосов
/ 06 июня 2018

Я запускаю работу Spark на Amazon EMR;Я хотел бы продолжать сообщать об общей и свободной памяти кластера из самой программы.Есть ли какой-либо метод в Spark API, который предоставляет информацию о памяти кластера?

1 Ответ

0 голосов
/ 06 июня 2018

Вы можете использовать spark.metrics.conf

Как использовать: инициализировать spark.metrics.conf в вашем файле конф искры

spark.metrics.conf = /path/to/metrics.properties 

По указанному выше пути создать *Файл 1007 * metrics.properties . В этом файле упоминаются параметры, которые вы хотите использовать в приложении spark, даже вы можете указать формат и интервал.

Например, здесь я получаю данные вФормат CSV в каждую 1 минуту:

driver.sink.csv.class=org.apache.spark.metrics.sink.CsvSink

# Polling period for the CsvSink
#*.sink.csv.period=1
# Unit of the polling period for the CsvSink
#*.sink.csv.unit=minutes

# Polling directory for CsvSink
driver.sink.csv.directory=/Path/at/which/data/will/be/dumped

# Polling period for the CsvSink specific for the worker instance
driver.sink.csv.period=1
# Unit of the polling period for the CsvSink specific for the worker instance
driver.sink.csv.unit=minutes

Полная документация по этому вопросу вы можете найти в: https://spark.apache.org/docs/latest/monitoring.html#metrics

...