Я выполняю клейкую работу для моего конвейера aws etl. Клеевая работа запускает код pyspark. Код pyspark извлекает данные из нескольких баз данных mysql в экземплярах ec2, выполняет etl и объединяет результаты. Код работает нормально для некоторых баз данных и не работает для других. Некоторые поля данных имеют очень низкую скорость заполнения. Последнее сообщение об ошибке из журнала ошибок для одного из неудачных заданий приведено ниже. Проблема в том, что какая-то часть кода pyspark занимает слишком много времени, чтобы вернуть результаты? Кто-нибудь может сказать из сообщения ниже, что проблема может быть? Или есть способ с помощью ws-клея проследить неудачную работу и посмотреть, где она умерла? Любые советы приветствуются.
Журнал ошибок:
60] storage.ShuffleBlockFetcherIterator (Logging.scala:logInfo(54)) - Started 0 remote fetches in 0 ms
2019-11-01 09:04:50,961 INFO [Executor task launch worker for task 7981] executor.Executor (Logging.scala:logInfo(54)) - Running task 199.0 in stage 133.0 (TID 7981)
2019-11-01 09:04:50,961 INFO [Executor task launch worker for task 7962] storage.ShuffleBlockFetcherIterator (Logging.scala:logInfo(54)) - Started 0 remote fetches in 0 ms
2019-11-01 09:04:50,962 INFO [Executor task launch worker for task 7962] executor.Executor (Logging.scala:logInfo(54)) - Finished task 180.0 in stage 133.0 (TID 7962). 3667 bytes result sent to driver
2019-11-01 09:04:50,963 INFO [Executor task launch worker for task 7960] executor.Executor (Logging.scala:logInfo(54)) - Finished task 177.0 in stage 133.0 (TID 7960). 3667 bytes result sent to driver
2019-11-01 09:04:50,963 INFO [Executor task launch worker for task 7981] storage.ShuffleBlockFetcherIterator (Logging.scala:logInfo(54)) - Getting 0 non-empty blocks including 0 local blocks and 0 remote blocks
2019-11-01 09:04:50,963 INFO [Executor task launch worker for task 7981] storage.ShuffleBlockFetcherIterator (Logging.scala:logInfo(54)) - Started 0 remote fetches in 0 ms
2019-11-01 09:04:50,964 INFO [Executor task launch worker for task 7981] executor.Executor (Logging.scala:logInfo(54)) - Finished task 199.0 in stage 133.0 (TID 7981). 3667 bytes result sent to driver
2019-11-01 09:04:54,140 INFO [dispatcher-event-loop-0] executor.CoarseGrainedExecutorBackend (Logging.scala:logInfo(54)) - Driver commanded a shutdown
2019-11-01 09:04:54,145 INFO [CoarseGrainedExecutorBackend-stop-executor] memory.MemoryStore (Logging.scala:logInfo(54)) - MemoryStore cleared
2019-11-01 09:04:54,145 INFO [CoarseGrainedExecutorBackend-stop-executor] storage.BlockManager (Logging.scala:logInfo(54)) - BlockManager stopped
2019-11-01 09:04:54,154 INFO [pool-7-thread-1] util.ShutdownHookManager (Logging.scala:logInfo(54)) - Shutdown hook called
End of LogType:stdout