Spark Streaming при записи EMR в S3 - PullRequest
0 голосов
/ 07 августа 2020

У меня есть приложение для потоковой передачи искр, работающее на EMR. Приложение просто читает из кафки и записывает в S3. Громкость довольно высокая. Мы говорим о гигабайтах данных на пакет. Мой интервал запуска пакета составляет 30 секунд.

При этом мои пакеты быстрее (выполняются менее 30 секунд), за исключением того, что каждые 10 пакетов есть пауза от минуты до 2 минут. Когда я смотрю на вкладку SQL, выполняется> 1 мин каждые 10 пакетов.

введите описание изображения здесь

Я использую EMROptimized committer при записи в S3. Есть входы?

...