Эй, Сообщество Stackflow, я ищу хорошую архитектуру и инструменты для удовлетворения следующих требований:
В указанный c день каждый месяц делайте автоматически:
- Получить список URL-адресов для загрузки из источников в inte rnet (на данный момент python скрипт, который сохраняет CSV-файл URL для загрузки)
- скачать и сохранить PDF-файлы как можно быстрее (параллельно?) и обрабатывать ошибки http, как во многих запросах 429 (повторить через x секунд?) и 404 ошибки (регистрировать их)
- запустить скрипт в python, который будет go через каждый pdf- файл, извлекает некоторые данные из текста и сохраняет их в кадре данных, который будет экспортирован как CSV. Как распараллелить это? Map / Reduce в кластере или просто одна большая машина с множеством процессорных ядер?
Я хочу настроить это на облачный сервис, такой как AWS.
У меня есть одно решение на мой взгляд, это настройка контейнера воздушного потока, который запускает все эти задачи по порядку. В этом решении у меня есть недостаток, заключающийся в том, что я должен платить за этот контейнер целый месяц, но он мне нужен только один раз в месяц. Я не хочу каждый раз запускать и выключать экземпляр вручную.
Спасибо за вашу помощь!