Какой будет хорошая архитектура и какие инструменты я должен использовать для загрузки и обработки нескольких файлов один раз в месяц в облаке, например AWS? - PullRequest
0 голосов
/ 22 февраля 2020

Эй, Сообщество Stackflow, я ищу хорошую архитектуру и инструменты для удовлетворения следующих требований:

В указанный c день каждый месяц делайте автоматически:

  • Получить список URL-адресов для загрузки из источников в inte rnet (на данный момент python скрипт, который сохраняет CSV-файл URL для загрузки)
  • скачать и сохранить PDF-файлы как можно быстрее (параллельно?) и обрабатывать ошибки http, как во многих запросах 429 (повторить через x секунд?) и 404 ошибки (регистрировать их)
  • запустить скрипт в python, который будет go через каждый pdf- файл, извлекает некоторые данные из текста и сохраняет их в кадре данных, который будет экспортирован как CSV. Как распараллелить это? Map / Reduce в кластере или просто одна большая машина с множеством процессорных ядер?

Я хочу настроить это на облачный сервис, такой как AWS.

У меня есть одно решение на мой взгляд, это настройка контейнера воздушного потока, который запускает все эти задачи по порядку. В этом решении у меня есть недостаток, заключающийся в том, что я должен платить за этот контейнер целый месяц, но он мне нужен только один раз в месяц. Я не хочу каждый раз запускать и выключать экземпляр вручную.

Спасибо за вашу помощь!

...