Question

У меня есть пакетное приложение Spark, работающее в кластере YARN (в AWS EMR).Когда я читаю ввод в приложение из S3 и записываю вывод также в S3, приложение занимает много времени (почти 6 минут).Я предполагаю, что это происходит из-за задержек при чтении и записи в S3.Чтобы доказать свою догадку, я захожу на график событий искры, чтобы посмотреть, что требует времени.Вот временная шкала:

После моей функции сохранения есть огромные пробелы.Я вижу, что функция сохранения завершается примерно через 10-15 секунд. Закончилось ли оно на самом деле, а исполнители бездействуют?

Чтобы улучшить время выполнения моего приложения, я провел эксперимент.Я использовал HDFS вместо S3.Я читаю ввод в приложение из HDFS и записываю вывод также в HDFS.Приложение заняло всего 1,5 минуты.Временная шкала события искры в этом случае выглядит следующим образом: Пробелы исчезли.

Что такое пробелы в моей прежней временной шкале события?
Почему некоторые задания (например, синие поля на временной шкале события) равномерно разбросаны по вертикали?
Почему задания foreach () и save () не разбросаны по вертикали?
Что это означает, когда рабочие места разбросаны по вертикали?

Какие пробелы в моей временной шкале событий Spark UI?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Какие пробелы в моей временной шкале событий Spark UI?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы