Здесь есть несколько вариантов. Подход с применением грубой силы приведет к большому разочарованию, если то, что вы отслеживаете, не является очень последовательным. Для этого вы можете использовать любое количество генетических подходов, чтобы обучить свою программу тому, что нужно делать. После достаточного количества поколений он будет делать правильные вещи надежно. Если то, что вы хотите отследить, является визуально очевидным (например, красный шарик на белом экране), то вы можете обнаружить его самостоятельно с помощью простого сканирования растрового изображения методом грубой силы.
Другим подходом было бы просто посмотреть на память запущенного приложения и выяснить, в какой области контролируется положение вашего объекта. Для получения дополнительной информации и идей по этому вопросу, посмотрите, как mumble заставил 3D позиционный звук работать в различных играх.
http://mumble.sourceforge.net/HackPositionalAudio