Apache В логах драйвера Spark не указана причина отмены этапа - PullRequest
1 голос
/ 05 марта 2020

Я бегу Apache Искра на AWS ЭМИ под YARN. В кластере 1 мастер и 10 исполнителей. После нескольких часов обработки мой кластер не прошел, и я go просмотрел журнал.

Итак, я вижу, что все работающие исполнители пытались уничтожить задачу одновременно (это журнал чьего-то исполнителя):

20/03/05 00:02:12 INFO Executor: Executor is trying to kill task 66.0 in stage 2.0 (TID 466), reason: Stage cancelled
20/03/05 00:02:12 INFO Executor: Executor is trying to kill task 65.0 in stage 2.0 (TID 465), reason: Stage cancelled
20/03/05 00:02:12 INFO Executor: Executor is trying to kill task 67.0 in stage 2.0 (TID 467), reason: Stage cancelled
20/03/05 00:02:12 INFO Executor: Executor is trying to kill task 64.0 in stage 2.0 (TID 464), reason: Stage cancelled
20/03/05 00:02:12 ERROR Utils: Aborting a task

Я вижу, что причина Stage cancelled, но я не могу получить какие-либо подробности об этом. Я вижу журналы драйверов и обнаруживаю, что они имеют последнюю запись намного раньше.

Итак, у меня есть 2 вопроса:

  • Почему журналы драйверов намного короче, чем журналы исполнителей?
  • Как узнать реальную причину отмены этапа?
20/03/04 18:39:40 INFO TaskSetManager: Starting task 159.0 in stage 1.0 (TID 359, ip-172-31-6-236.us-west-2.compute.internal, executor 40, partition 159, RACK_LOCAL, 8421 bytes)
20/03/04 18:39:40 INFO ExecutorAllocationManager: New executor 40 has registered (new total is 40)
20/03/04 18:39:41 INFO BlockManagerMasterEndpoint: Registering block manager ip-172-31-6-236.us-west-2.compute.internal:33589 with 2.8 GB RAM, BlockManagerId(40, ip-172-31-6-236.us-west-2.compute.internal, 33589, None)
20/03/04 18:39:42 INFO BlockManagerInfo: Added broadcast_2_piece0 in memory on ip-172-31-6-236.us-west-2.compute.internal:33589 (size: 44.7 KB, free: 2.8 GB)
20/03/04 18:39:48 INFO BlockManagerInfo: Added broadcast_1_piece0 in memory on ip-172-31-6-236.us-west-2.compute.internal:33589 (size: 37.4 KB, free: 2.8 GB)
...