Клей "Количество максимально необходимых исполнителей" равен 0 - Время выполнения нескольких часов для очень маленьких файлов - PullRequest
0 голосов
/ 02 марта 2020

У нас есть задание ETL, которое записывает данные из файлов. json, которые хранятся в S3, в базу данных MySQL.

  • Около 30 новых файлов каждый день в хранилище S3
  • Включены закладки (инициализация задания, принятие задания и все другие требования должны быть выполнены)
  • При первом запуске задания было 6 рабочих типа G.1X для тысяч файлов
  • с 5 исполнителями, вся работа заняла ~ 4 часа

  • ежедневный запуск этой работы с 2 работниками занимает около 3 часов, даже если обрабатывается очень мало файлов

  • Максимально необходимое количество исполнителей составляет 0
  • Похоже, что он не читает новые файлы (что может быть правдой, так как в некоторые дни нет новых файлов)

enter image description here

Вопрос теперь: почему работа по-прежнему занимает часы, даже если по закладкам не обнаружено новых файлов? Я предположил бы, что это должно бежать 5 минут максимум. Он фильтрует «измененное время» в файлах S3, видит, что нет (или очень мало) файлов для обработки, и проходит через них. Но, похоже, дело не в этом?

...