Я получил изображение из блога здесь , которое было очень информативным.
RCNN
В RCNN я получаю, что выборочный поиск используется для выбора Области интереса («предложения»), и они передаются в convNet, который произвольно создает вектор признаков 4096 измерений. Это передается в SVM, и мы получаем классификацию. Имеет смысл.
Fast-RCNN
"вместо того, чтобы направлять предложения по регионам в CNN, мы передаем входное изображение в CNN для создания карты сверточных объектов. Из карты сверточных объектов мы идентифицируем область предложений и деформируем их в квадраты, используя Слой пула RoI мы преобразуем их в фиксированный размер, чтобы его можно было передавать в полностью связанный слой. "
Я знаю все эти слова по отдельности; но сложив их так, я запутался. Для Fast-RCNN различие состоит в том, что ConvNet, по-видимому, используется для создания областей интереса, а не для выборочного поиска. Как это работает?
Мое текущее понимание сбито с толку на шагах 2/3, в противном случае я думаю, что я в порядке:
- У нас есть изображение и передаем его в CNN.
- CNN генерирует фильтры, как обычно, путем случайной инициализации некоторых
(и впоследствии корректировка на основе ошибки.)
- Выборочный поиск в стеке свернутых изображений?
- RoI объединены в один размер.
- Слой Softmax, чтобы решить классификацию + LR, чтобы получить ограничивающий прямоугольник.
Бонус: Почему вектор характеристик 4096 измерений в RCNN? Просто случайно выбранный номер?