Spark написать паркетную работу завершена, но есть долгая задержка, чтобы начать новую работу - PullRequest
1 голос
/ 01 ноября 2019

Я использую Spark 2.4.4 на AWS EMR и после длительной задержки записи файла партера в S3 произошла длительная задержка. Я проверил, что процесс записи S3 должен быть завершен за несколько секунд (файлы данных и файл _success находятся в S3). Но это все еще задержалось около 5 минут, чтобы начать следующие работы.

Я видел, как кто-то сказал, что это называется "Паркетный налог". Я попробовал предложенные исправления из этих статей, но все еще не могу решить проблему. Кто-нибудь может мне помочь? Огромное спасибо. enter image description here

...