Question

В настоящее время я выполняю алгоритм K-Means в кластере.

Между последовательными выполнениями в одной и той же конфигурации (одинаковое количество исполнителей, ОЗУ, итерации, набор данных) количество задач, заданий и этапов может сильно различаться. За 10 выполнений количество задач достигло стандартного отклонения около 500.

Это нормально? Разве DAG не должен быть одинаковым при одинаковых конфигурациях?

Я управляю реализацией K-Means в Spark с использованием Scala.

user6910411 · Answer 1 · 05 сентября 2018

Это совершенно нормальное поведение.

Количество итераций, необходимых для сходимости K-средних, зависит от первоначального выбора центроидов, и процесс является либо полностью (режим произвольной инициализации), либо частично (режим K-сред. || init) случайным.

Поскольку каждая итерация запускает задание (и создает отдельную группу обеспечения доступности баз данных), число этапов и, следовательно, задач, пропорционально количеству итераций, выполненных до выполнения критериев сходимости.

Различается ли количество задач, этапов и заданий при выполнении приложения Spark в одной и той же конфигурации?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Различается ли количество задач, этапов и заданий при выполнении приложения Spark в одной и той же конфигурации?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы