Question

Эй, Сообщество Stackflow, я ищу хорошую архитектуру и инструменты для удовлетворения следующих требований:

В указанный c день каждый месяц делайте автоматически:

Получить список URL-адресов для загрузки из источников в inte rnet (на данный момент python скрипт, который сохраняет CSV-файл URL для загрузки)
скачать и сохранить PDF-файлы как можно быстрее (параллельно?) и обрабатывать ошибки http, как во многих запросах 429 (повторить через x секунд?) и 404 ошибки (регистрировать их)
запустить скрипт в python, который будет go через каждый pdf- файл, извлекает некоторые данные из текста и сохраняет их в кадре данных, который будет экспортирован как CSV. Как распараллелить это? Map / Reduce в кластере или просто одна большая машина с множеством процессорных ядер?

Я хочу настроить это на облачный сервис, такой как AWS.

У меня есть одно решение на мой взгляд, это настройка контейнера воздушного потока, который запускает все эти задачи по порядку. В этом решении у меня есть недостаток, заключающийся в том, что я должен платить за этот контейнер целый месяц, но он мне нужен только один раз в месяц. Я не хочу каждый раз запускать и выключать экземпляр вручную.

Спасибо за вашу помощь!

Какой будет хорошая архитектура и какие инструменты я должен использовать для загрузки и обработки нескольких файлов один раз в месяц в облаке, например AWS?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Какой будет хорошая архитектура и какие инструменты я должен использовать для загрузки и обработки нескольких файлов один раз в месяц в облаке, например AWS?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы