Система SLAM, которая использует глубоко изученные функции? - PullRequest
0 голосов
/ 05 октября 2018

Кто-нибудь пытался разработать систему SLAM, в которой используются классические функции вместо классических AKAZE/ORB/SURF?

Сканируя последние конференции Computer Vision, кажется, довольно много сообщений об успешном использовании нейронных сетей для извлечения функций и дескрипторов, и тесты указывают, что они могут быть более надежными, чем их классический эквивалент компьютерного зрения.Я подозреваю, что скорость извлечения является проблемой, но, если у кого-то есть приличный графический процессор (например, NVidia 1050), возможно ли даже построить систему SLAM в реальном времени, работающую, скажем, со скоростью 30 кадров в секунду на изображениях в градациях серого 640x480 с глубоко изученными функциями?

1 Ответ

0 голосов
/ 05 октября 2018

Это было слишком долго для комментария, поэтому я публикую его в качестве ответа.

Я думаю, что это возможно, но я не понимаю, как это было бы полезно.Вот почему (пожалуйста, поправьте меня, если я ошибаюсь):

  • В большинстве конвейеров SLAM точность важнее долгосрочной надежности. Вам, очевидно, нужноваши особенности обнаружения / соответствия, чтобы быть точным, чтобы получить надежную триангуляцию / связку (или любую эквивалентную схему, которую вы могли бы использовать).Тем не менее, высокий уровень надежности, который обеспечивают нейронные сети, требуется только для систем, которые перемещают / замыкают петли на длительные промежутки времени ( например, необходимо выполнять перемещение в разные сезоны и т. Д.).Даже в таких сценариях, поскольку у вас уже есть графический процессор, я думаю, что было бы лучше использовать фотометрическую (или даже просто геометрическую) модель сцены для локализации.

  • У нас нет надежных моделей шума для функций, обнаруживаемых нейронными сетями. Я знаю, что было несколько интересных работ (Гал, Кендалл и т. Д.) Для распространения неопределенностей в глубоких сетях, ноэти методы кажутся немного незрелыми для развертывания в системах SLAM.

  • Методы глубокого обучения, как правило, хороши для инициализации системы, и решение, которое они предоставляют, нуждается в уточнении. Их результаты слишком сильно зависят от набора обучающих данных, икак правило, "ударить и пропустить" на практике.Поэтому я думаю, что вы можете доверять им, чтобы получить первоначальное предположение или некоторые ограничения ( например , как в случае оценки позы: если у вас есть геометрический алгоритм, который дрейфует во времени, то вы можете использовать результатынейронной сети, чтобы ограничить их. Но я думаю, что отсутствие модели шума, как упомянуто ранее, усложнит слияние здесь ...).

Так что да, ядумаю, что это выполнимо, и что вы, вероятно, при тщательном проектировании и настройке можете произвести несколько интересных демонстраций, но я бы не стал доверять этому в реальной жизни.

...