Это звучит как проблема обнаружения нескольких объектов (MOD). Вам нужно будет обучить MOD-модель, такую как YOLO или SSD, с вашими изображениями (требуемый формат и процедура варьируются в зависимости от инфраструктуры и сетевой архитектуры), после чего они смогут обнаружить несколько экземпляров данных, на которых они были обучены. Если вы тренируетесь с изображениями, содержащими только один или несколько экземпляров, это не должно иметь принципиального значения. Обратите внимание, что процессы обучения и вывода не являются легкими задачами, однако, если у вас нет достаточного опыта в нейронных сетях и некотором языке программирования (например, Python).
Я бы порекомендовал поискать уроки для блогов или YouTube по настройке обнаружения мультиобъектов и следовать им.