Нужен совет по обнаружению объекта и классификации движения на видео в реальном времени - PullRequest
0 голосов
/ 13 октября 2019

Я нахожусь в исследовании для моего финального проекта, я хочу сделать обнаружение объектов и классификацию движений как amazon go, я прочитал много исследований, таких как обнаружение объектов с SSD или YOLO и классификация видео с использованием CNN + LSTM, я хочуПредложите алгоритм обучения следующим образом:

  1. Обнаружение в режиме реального времени для нескольких объектов (в моем случае: персона) с помощью SSD / YOLO
  2. Получите граничный объект и обрежьте кадр
  3. Передайте информацию обрезанного кадра в алгоритм CNN + LSTM для прогнозирования движения (если человек идет / берет предметы)

Возможно ли сделать это в среде реального времени? или есть ли лучший метод для обнаружения в реальном времени и классификации движения

Ответы [ 2 ]

1 голос
/ 13 октября 2019

Если вы хотите использовать его в приложении реального времени, необходимо учитывать несколько других вещей, которые не появлялись до реализации алгоритма в реальной среде.

Что касается предлагаемого трехэтапного метода, он уже может привести к созданию хорошего метода, но первый шаг будет очень точным. Я думаю, что лучше объединить 3 шага в один шаг. Потому что тип движения человека - это хорошая черта человека. Из-за этого, я думаю, все шаги могут быть собраны за один шаг.

Моя идея заключается в следующем: 1. набор данных классификации видео, который просто помечает движение человека или объекта 2. метод классификации видео на основе cnn-lstm

Это позволит решить ваш проект должным образом.

Этот ответ требует более подробной информации, если вы заинтересованы, я могу ответить вам более подробно.

0 голосов
/ 24 октября 2019

Была почти такая же проблема. Прогнозирование движения не очень хорошо работает в сложных реальных ситуациях. Вот простой пример:

enter image description here ( См. В действии )

Я создаю инструмент обработки видео 4K ( некоторые примеры ). Текущий подход выглядит следующим образом:

  1. делать грубую, но супер быструю сегментацию
  2. извлекать ограничивающую рамку и фигуру
  3. применять некоторую "магию мета-видения"
  4. выполнить точную сегментацию в пределах определенной области

enter image description here ( См. В действии )

На данный момент подход выглядит такболее гибкий по сравнению с отслеживанием движения.

«Мета-видение», предназначенное для правильного отслеживания эволюции формы: enter image description here ( Смотрите в действии )

Давайте сравним:

...