Вам нужен некоторый тип глобального / локального метода отслеживания, который имеет весовые коэффициенты для таких терминов, как пространственная когерентность (сколько человек переместился относительно другого), когерентность формы (как много он переместился) и штрафы за слияние / разделение треков.
Аналогичная проблема - отслеживание клеток в биомедицинских изображениях. Некоторые ссылки с этой конференции здесь , например, могут быть полезны.
Edit:
bjoernz делает превосходное замечание в комментариях. Если вы сможете добавить в сцену какую-то форму опознавательных знаков, задача будет намного проще.
Он даже не должен быть видимым сигналом длины волны. Вы можете покрасить лист ИК-отражающей краской и использовать ИК-камеру, например, чтобы поднять его. ИК-камера может быть прицельной с обычной камерой видимой длины волны.
Что касается решения для обычного зрения, мой ответ выше.