Почему Spark убивает моих исполнителей во время моего сходства? - PullRequest
0 голосов
/ 19 июня 2019

Я пытаюсь выполнить сходство 16M против 1000 наборов данных.На определенном этапе мои исполнители не дают ошибку ExecutorLostFailure.Я полагаю, что эта проблема создаётся в случайном порядке.
Мой кластер EMR состоит из:
- master: r4.8xlarge
- 6 подчиненных: r4.4xlarge
Я также транслирую свой набор данных на 1000 строк визбегайте перетасовки (однако я не могу видеть это из DAG), однако этого недостаточно.У вас есть другие рекомендации, чтобы заставить вещь работать?Увеличение кластера - единственное решение?
Здесь Ошибки (Многие исполнители показывают это):
enter image description here Я прикрепляю вам свой DAG:
[DAG[1]

...