Каков подход к распознаванию сцены с глубоким обучением (желательно керас).Есть много примеров, показывающих, как классифицировать изображения ограниченного размера, например, рукописные буквы собак / кошек и т. Д. Есть также несколько примеров для обнаружения искомого объекта в большом изображении.
Но что такоелучший способ узнать, например, это классная комната, спальня или столовая?Создать набор данных с этими изображениями?Я думаю нет.Я думаю, что нужно обучить модель множеству вещей, которые могут появиться на сцене, создать вектор найденных вещей на анализируемом изображении и с помощью второго классификатора (SVM или простого NN) классифицировать сцену.Это правильный подход?
PS: На самом деле, я столкнулся с другой проблемой, с которой IHMO то же самое.Моя "сцена" - это изображение с микроскопа.Изображения содержат различные наборы ячеек и артефактов.В зависимости от набора врач ставит диагноз.Поэтому я стремлюсь обучить CNN артефактам, которые я извлекаю простыми морфологическими методами.Эти артефакты (например, биологические клетки) будут моими чертами.Таким образом, первый уровень распознавания - извлечение признаков сделано CNN, более поздняя классификация SVM.Просто хотел быть уверен, что я не изобретаю колесо.