Что затрудняет представление и распознавание объектов? - PullRequest
3 голосов
/ 22 февраля 2011

Интуитивно понятно, что при наличии дюжины или около того двухмерных изображений под разными углами практически любого объекта должно быть легко построить трехмерное представление этого объекта. Впоследствии полученная таким образом библиотека трехмерных представлений может использоваться для идентификации новых двумерных изображений.

Какая литература существует в этом направлении, и почему она еще не произвела сильного распознавания объектов?

Ответы [ 3 ]

6 голосов
/ 24 февраля 2011

Именно ваше слово "интуитивно" вызывает у вас проблемы там. Ваш мозг не предназначен для того, чтобы очень хорошо выполнять определенные задачи, такие как умножение тысяч чисел в одно мгновение. Однако из-за необработанных вычислительных мощностей ваш мозг делает самый быстрый компьютер похожим на легкие подмигивания (время нейронной реакции составляет всего около 10 миллисекунд, но все эти 10 ^ 14 или около того нейронов, все работающие параллельно, полностью бьют любую современную машину). Просто ваш мозг предназначен для решения сложных вычислительных задач, таких как распознавание объектов на изображении, анализ звуковых данных и выделение отдельных динамиков на фоне фонового шума. Научиться классифицировать и обрабатывать десятки тысяч типов объектов.

Невероятно сложные в вычислительном отношении вещи, на которые ваш мозг рассчитан, чтобы действительно хорошо работать, - это вещи, которые человеку кажутся "интуитивными". Вещи, для которых он не предназначен, кажутся «не интуитивными» или трудными. Но необработанные вычисления необходимы для сильного распознавания объектов (потому что существует так много МНОГО типов объектов, многие из которых действительно имеют подобъекты, множественные классификации и нежесткие формы, например, "брюки", "вода", "собака") это НАДЕЖДА больше, чем необходимо для выполнения задач, которые считаются возможными только для компьютера. Такие вещи, как использование «здравого смысла» для решения повседневных проблем, одинаково тривиальны для человека, но невероятно сложны в вычислительном отношении.

4 голосов
/ 24 февраля 2011

То, что вы хотите сделать, действительно возможно, но (довольно много но)

для 3D реконструкции:

  • Для всего, кроме самых простых фигур, вам нужно больше, чем несколько десятков изображений.
  • Форма, которую вы восстанавливаете, должна иметь много узнаваемых элементов, которые достаточно похожи под разными углами, чтобы вы могли соответствовать им.
  • Освещение должно быть достаточно постоянным по всему вашему набору изображений, иначе тени отбросят вас (или вам нужно еще больше изображений)
  • даже с очень многофункциональными объектами (т. Е. Большим количеством вариаций цвета и формы) Точность трехмерного восстановления по любой согласованной паре объектов будет ужасной, если вы не обладаете полным знанием параметров (положения, направления обзора и открытия) угол) камеры, используемой для каждого снимка.

Все эти проблемы могут быть решены, поэтому предположим, что вы это сделали, и теперь у вас есть новое изображение объекта, которое вы хотите сопоставить с вашей трехмерной формой.

Конечно, вы можете попытаться найти 2D-проекцию вашей фигуры, которая соответствует новой картинке, но пространство для поиска там огромно. Вероятно, было бы намного проще и быстрее использовать систему поиска и сопоставления объектов, которую вы построили для первоначальной трехмерной реконструкции, чтобы напрямую сопоставить новое изображение с существующим набором и найти, где оно вписывается в объект таким образом.

Так что, как только вы решите проблему создания начальной трехмерной реконструкции, ваш второй шаг в основном будет выполнен.

Фотосинтез - яркий пример этих двух шагов. Просмотрите сайт, попробуйте найти некоторые ссылки, которые у них есть.

Что касается вашего последнего шага, сильного распознавания объектов, просто представьте пространство поиска! То, что вам нужно для надежного распознавания объектов, помимо хорошего представления объектов, которые вы хотите распознать, - это хороший способ поиска в пространстве известных вам объектов и хороший способ представления вашего нового объекта (изображения объекта в этот случай) в этом пространстве. Это то, о чем я почти ничего не знаю.

Для сопоставления одного и того же объекта в разных 2D-изображениях имеется SIFT-функций . Но я не думаю, что это хорошо переводится в 3D.

2 голосов
/ 04 марта 2011

Обратите внимание, что вы описываете распознавание экземпляров .В наши дни компьютер действительно может хорошо распознавать экземпляры.Например, Google Goggles очень хорошо распознает такие ориентиры, как мост Золотые Ворота и Эйфелева башня.

Однако компьютеры хуже справляются с распознаванием и классификацией категорий .Создание десятков 2D-снимков для всех возможных объектов при всех типах освещения и т. Д. Становится очень трудно решаемым.Тот факт, что некоторые объекты, такие как собака, могут перемещаться, делает пространство возможностей еще больше.Компьютеры становятся намного хуже в этом.

Кроме того, с биологической точки зрения наше поле зрения составляет около 100 миллионов пикселей.Видеокарты только сейчас стали способны отображать столько данных в режиме реального времени.Осмысление такого большого количества данных требует еще больших вычислительных ресурсов.

Часто говорят о том, что у машины есть 5-летняя способность обрабатывать информацию.Но давайте подумаем о том, сколько это данных.100 миллионов пикселей с 3 цветными каналами и 1 байт на пиксель = 300 МБ / с.Теперь умножьте это на 30 кадров в секунду, 31 556 926 секунд в год и 5 лет, в результате вы получите примерно 1,4 эксабайта (1,4x10 ^ 18).

...