Что касается подхода ML
, вы можете использовать практически любую современную сеть обнаружения объектов, чтобы получить приблизительные координаты желаемой цели и извлечь эту часть кадра, передавая позитивы в ARKit или аналогичные. Недостатком является то, что обучение, вероятно, будет ресурсоемким. Это может сработать, но я не могу говорить о его эффективности по сравнению с другими подходами.
В попытке расширить это объяснение я вижу, что ARKit 2.0 обрабатывает (что кажется) то, что вы пытаетесь сделать; этого недостаточно?
Чтобы ответить на ваш вопрос в комментариях, CoreML предлагает модели для распознавания объектов, но не для локализации, поэтому я подозреваю, что необходимо будет использовать их конвертер после обучения модели, такой как это . Входом в эту сеть будут кадры с камеры, а на выходе будут обнаружены классы с вероятностями из обнаружения и приблизительными координатами; если ваши цели присутствуют, и примерно, где они находятся.
Опять же, однако, если вы ищете 2D-изображения, а не 3D + объекты, и , особенно , если это приложение ARKit в любом случае, похоже, что встроенное отслеживание ARKit будет гораздо более эффективным в существенно ниже стоимость разработки.