Мультимодальное распознавание эмоций из небольшого набора данных - PullRequest
0 голосов
/ 23 апреля 2020

У меня очень маленький набор данных из 7 эмоций с ~ 350 видео (10 актеров произносят фразу в каждой эмоции 5 раз). Сам набор данных проблематичен c, поскольку его не так просто изучить, а объем данных относительно невелик. Эмоции сильно различаются между актерами.

До сих пор мой подход был:

  • Извлечение активации кадра с использованием предварительно обученного Re snet

  • Спектрограмма на аудио

  • Конкататируйте эти 2 и передайте их в GRU

  • Вывод контекста GRU, переданный через линейное предсказание

Чтобы еще больше стабилизировать модель, я делю видео на 10 сегментов, из которых выбираю случайный кадр (я получаю только лицо актера) каждый раз, когда я прохожу через него, пока обучение, случайное кадрирование, случайное зеркало и случайная перспектива.

Моя проблема с этим подходом заключается в том, что независимо от того, что я делаю, я не могу получить точность более чем на ~ 51% в тестовом наборе (около 55 ~ на тренировке с некоторая регуляризация)

Как я могу улучшить набор данных? Или архитектура для такого маленького и сложного набора данных?

...