Я не знаю, насколько вы знакомы с обработкой изображений или видео, но написание трекера с нуля будет очень трудоемким, если вы хотите получить надежные результаты. Усилия также зависят от того, какие маркеры вы планируете использовать. Artoolkit, например сравнивает содержание маркера, обнаруженное в видеопотоке, с изображениями, которые вы ранее определили как маркеры. Следовательно, он пытается сопоставить изображения и возвращает значение вероятности того, что определенная часть видеопотока является предопределенным маркером. В зависимости от порога, который вы собираетесь использовать, и ситуации с освещением, маркеры не всегда распознаются правильно. Кроме того, существуют другие маркеры, такие как datamatrix, qrcode, framemarkers (используемые QCAR), которые оптически кодируют идентификатор. Таким образом, сопоставление изображений не требуется, все необходимые данные могут быть получены из видеопотока. Кроме того, существуют более сложные подходы, такие как отслеживание естественных объектов, где вы можете использовать предопределенные изображения, учитывая, что они предлагают достаточный контраст и точки интереса, чтобы впоследствии они могли быть распознаны трекером.
Поэтому, если вы больше заинтересованы в реальном приложении или взаимодействии, чем в понимании работы трекеров, вы должны основывать свою работу на существующей библиотеке.