Какие пробелы в моей временной шкале событий Spark UI? - PullRequest
0 голосов
/ 20 декабря 2018

У меня есть пакетное приложение Spark, работающее в кластере YARN (в AWS EMR).Когда я читаю ввод в приложение из S3 и записываю вывод также в S3, приложение занимает много времени (почти 6 минут).Я предполагаю, что это происходит из-за задержек при чтении и записи в S3.Чтобы доказать свою догадку, я захожу на график событий искры, чтобы посмотреть, что требует времени.Вот временная шкала:

enter image description here После моей функции сохранения есть огромные пробелы.Я вижу, что функция сохранения завершается примерно через 10-15 секунд. Закончилось ли оно на самом деле, а исполнители бездействуют?

Чтобы улучшить время выполнения моего приложения, я провел эксперимент.Я использовал HDFS вместо S3.Я читаю ввод в приложение из HDFS и записываю вывод также в HDFS.Приложение заняло всего 1,5 минуты.Временная шкала события искры в этом случае выглядит следующим образом: enter image description here Пробелы исчезли.

  1. Что такое пробелы в моей прежней временной шкале события?
  2. Почему некоторые задания (например, синие поля на временной шкале события) равномерно разбросаны по вертикали?
  3. Почему задания foreach () и save () не разбросаны по вертикали?
  4. Что это означает, когда рабочие места разбросаны по вертикали?
...