У меня есть задача. Я хочу завершить sh задачу, которая автоматически извлекает ключевой кадр из ультразвуковой видеопоследовательности живота. Элемент в ключевом кадре очевиден, когда мочевой пузырь на этом кадре имеет отчетливый баллон из-за впрыска воды. Видео представляет собой изображение в реальном времени ультразвукового зонда, перемещающегося все время. Я работал над стати c медицинских изображений. Я не знаю, как определить эту задачу. У меня есть несколько идей:
1. Классификация кадров. Пометьте видео на две категории: 0,1. Целевой кадр помечен как один, а остальные помечены как ноль. Возможная проблема заключается в том, что образец крайне несбалансирован. 2. Двухэтапная стратегия. Сначала я проектирую глубокую сеть для обнаружения ключевых кадров, что также можно рассматривать как выбор кадров предложения. Затем можно добавить сеть судей следующим образом, чтобы классифицировать, является ли она целевым ключевым кадром. 3. Конечная структура. Вход представляет собой видеопоследовательность, а выход - ключевой кадр. (Многие-ко-ONE). Но, похоже, эта проблема чаще встречается при обработке естественного языка, в которой используется RNN. Таким образом, я рассмотрел видео процесс, основанный на DL. Я не понимаю, как определить мою задачу. Кто может помочь мне проанализировать?
PS: Сеть должна быть спроектирована для ввода видеоизображений в реальном времени, поэтому может быть суть проблемы обработки изображений ??