Подход для непрерывной обработки большого количества задач Computer Vision? - PullRequest
0 голосов
/ 16 мая 2019

У меня есть вопрос относительно правильных инструментов и подходов к решению моей проблемы.

У меня есть хранилище документов , в котором хранятся документы, содержащие URL-адреса изображений.Я хочу выполнить несколько задач Computer Vision (например, обнаружение объектов, распознавание текста) на этих изображениях и сохранить результаты обратно в хранилище.Задачи определены в рабочих документах , которые содержат ссылку на документ с изображением и тип задачи (и некоторые другие, но я их опущу для простоты).Также масштабируемость важна, поскольку цель состоит в том, чтобы обрабатывать несколько миллионов изображений в день.

Мой текущий подход состоит из сценария Python , который непрерывно запрашивает пакет рабочих документовзатем запрашивает документы с изображениями на основе документов заданий, затем запрашивает изображения из URL, завершает задачи CV (по возможности параллельно), сохраняет результат и удаляет документ задания.

Workflow visualization

Я считаю этот сценарий очень негибким и подверженным ошибкам.Есть ли лучшие подходы для решения таких задач, как описано выше?В настоящее время я читаю в Apache Beam, где пакетная обработка может пригодиться.

Было бы здорово, если бы вы могли привести меня в правильном направлении с точки зрения тем для чтения или инструментов для таких задач.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...