У нас есть задание ETL, которое записывает данные из файлов. json, которые хранятся в S3, в базу данных MySQL.
- Около 30 новых файлов каждый день в хранилище S3
- Включены закладки (инициализация задания, принятие задания и все другие требования должны быть выполнены)
- При первом запуске задания было 6 рабочих типа G.1X для тысяч файлов
с 5 исполнителями, вся работа заняла ~ 4 часа
ежедневный запуск этой работы с 2 работниками занимает около 3 часов, даже если обрабатывается очень мало файлов
- Максимально необходимое количество исполнителей составляет 0
- Похоже, что он не читает новые файлы (что может быть правдой, так как в некоторые дни нет новых файлов)
![enter image description here](https://i.stack.imgur.com/eplw4.png)
Вопрос теперь: почему работа по-прежнему занимает часы, даже если по закладкам не обнаружено новых файлов? Я предположил бы, что это должно бежать 5 минут максимум. Он фильтрует «измененное время» в файлах S3, видит, что нет (или очень мало) файлов для обработки, и проходит через них. Но, похоже, дело не в этом?