Это похоже на проект, который мы делали в рамках курса Computer Vision, и я могу вам сказать прямо сейчас, что сложно разобраться в этом.
Вы можете использовать сегментацию переднего плана / фона, найти все капли и затем решить, что они - человек. Проблема в том, что он не будет работать очень хорошо, так как люди склонны идти вместе, проходить мимо друг друга и так далее, поэтому шарик вполне может состоять из двух человек, и тогда вы увидите, как этот шарик раскалывается и сливается, когда они идут.
Вам понадобится какой-то метод различения нескольких людей в одном блобе. Это не проблема, я ожидаю, что любой сможет ответить в одном SO-сообщении.
Мой совет - погрузиться в доступные исследования и посмотреть, сможете ли вы найти там что-нибудь. Проблема не является неразрешимой, учитывая, что существуют продукты, которые делают это: у Autoliv есть продукт для обнаружения пешеходов, использующий ИК-камеру на автомобиле, и я видел другие продукты, которые имеют дело с подсчетом покупателей, входящих и выходящих из магазинов.