Я пытаюсь написать пакетное задание, которое
- читает XLS (легко)
- пишет JSONL (легко)
- , но делаеттак что по частям, так что не хватает памяти (просто)
- загружает результат в S3 только после полного завершения шага
Я никогда не хочу загружать частичный результат иМне никогда не нужно перезапускать работу с середины - я прекрасно справляюсь с повторным запуском всей работы (или шага) с самого начала.Но я никогда не хочу получить частичный результат.
В настоящее время я рассматриваю возможность работы в два этапа.Первый шаг - создание JSONL при записи в temp, второй - получение временного файла и загрузка его на S3 с помощью тасклета.
Как бы вы справились с этим?Какова лучшая практика?Спасибо.