Если есть способ получить информацию во время выполнения о конфигурации SparkMetrics - PullRequest
0 голосов
/ 01 марта 2019

Я добавляю файл metrics.properties в каталог ресурсов (проект maven) с CSV sinc.Все нормально, когда я запускаю приложение Spark локально - появляется метрика.Но когда я отправляю в Amazon EMR такую ​​же толстую банку, я не вижу попыток вставить метрики в CSV sinc.Поэтому я хочу проверить во время выполнения, какие загруженные настройки для подсистемы SparkMetrics.Есть ли возможность сделать это?Я заглянул в SparkEnv.get.metricsSystem, но ничего не нашел.

1 Ответ

0 голосов
/ 05 марта 2019

Это в основном потому, что Spark на EMR не получает ваш пользовательский файл metrics.properties из папки resources толстой банки.

Для EMR предпочтительный способ настройки - через API EMR Configurations , в котором вам нужно передать classification и properties во встроенный JSON.

  • Для подсистемы spark metrics приведен пример изменения пары метрик
  [
    {
      "Classification": "spark-metrics",
      "Properties": {
        "*.sink.csv.class": "org.apache.spark.metrics.sink.CsvSink",
        "*.sink.csv.period": "1"
      }
    }
  ]

Этот JSON можно использовать при создании кластера EMR с помощью консоли Amazon или через SDK

.
...