Различается ли количество задач, этапов и заданий при выполнении приложения Spark в одной и той же конфигурации? - PullRequest
0 голосов
/ 05 сентября 2018

В настоящее время я выполняю алгоритм K-Means в кластере.

Между последовательными выполнениями в одной и той же конфигурации (одинаковое количество исполнителей, ОЗУ, итерации, набор данных) количество задач, заданий и этапов может сильно различаться. За 10 выполнений количество задач достигло стандартного отклонения около 500.

Это нормально? Разве DAG не должен быть одинаковым при одинаковых конфигурациях?

Я управляю реализацией K-Means в Spark с использованием Scala.

1 Ответ

0 голосов
/ 05 сентября 2018

Это совершенно нормальное поведение.

Количество итераций, необходимых для сходимости K-средних, зависит от первоначального выбора центроидов, и процесс является либо полностью (режим произвольной инициализации), либо частично (режим K-сред. || init) случайным.

Поскольку каждая итерация запускает задание (и создает отдельную группу обеспечения доступности баз данных), число этапов и, следовательно, задач, пропорционально количеству итераций, выполненных до выполнения критериев сходимости.

...