У меня есть вопрос относительно правильных инструментов и подходов к решению моей проблемы.
У меня есть хранилище документов , в котором хранятся документы, содержащие URL-адреса изображений.Я хочу выполнить несколько задач Computer Vision (например, обнаружение объектов, распознавание текста) на этих изображениях и сохранить результаты обратно в хранилище.Задачи определены в рабочих документах , которые содержат ссылку на документ с изображением и тип задачи (и некоторые другие, но я их опущу для простоты).Также масштабируемость важна, поскольку цель состоит в том, чтобы обрабатывать несколько миллионов изображений в день.
Мой текущий подход состоит из сценария Python , который непрерывно запрашивает пакет рабочих документовзатем запрашивает документы с изображениями на основе документов заданий, затем запрашивает изображения из URL, завершает задачи CV (по возможности параллельно), сохраняет результат и удаляет документ задания.
![Workflow visualization](https://i.stack.imgur.com/fxbuW.jpg)
Я считаю этот сценарий очень негибким и подверженным ошибкам.Есть ли лучшие подходы для решения таких задач, как описано выше?В настоящее время я читаю в Apache Beam, где пакетная обработка может пригодиться.
Было бы здорово, если бы вы могли привести меня в правильном направлении с точки зрения тем для чтения или инструментов для таких задач.