У меня есть большие файлы данных, хранящиеся в S3, которые мне нужно проанализировать. Каждая партия состоит из ~ 50 файлов, каждый из которых может быть проанализирован независимо.
Я бы хотел настроить параллельные загрузки данных S3 в экземпляр EC2 и настроить триггеры, запускающие процесс анализа для каждого загружаемого файла.
Существуют ли библиотеки, которые обрабатывают асинхронную загрузку, запускают на полной модели?
Если нет, я подумываю настроить несколько процессов загрузки с помощью пиропроцессора, каждый из которых будет загружать и анализировать один фрагмент файла. Это звучит разумно или есть лучшие альтернативы?