Это похоже на идею проекта, а не на вопросы кодирования.
Одна вещь, которую я предлагаю, состоит в том, чтобы угадать блоки из относительного расположения ограничивающих рамок.
Это сложная исследовательская задача, хотя,Возможно, Vision API откроет пользователям возможность напрямую понимать поступления.