У меня очень маленький набор данных из 7 эмоций с ~ 350 видео (10 актеров произносят фразу в каждой эмоции 5 раз). Сам набор данных проблематичен c, поскольку его не так просто изучить, а объем данных относительно невелик. Эмоции сильно различаются между актерами.
До сих пор мой подход был:
Извлечение активации кадра с использованием предварительно обученного Re snet
Спектрограмма на аудио
Конкататируйте эти 2 и передайте их в GRU
Вывод контекста GRU, переданный через линейное предсказание
Чтобы еще больше стабилизировать модель, я делю видео на 10 сегментов, из которых выбираю случайный кадр (я получаю только лицо актера) каждый раз, когда я прохожу через него, пока обучение, случайное кадрирование, случайное зеркало и случайная перспектива.
Моя проблема с этим подходом заключается в том, что независимо от того, что я делаю, я не могу получить точность более чем на ~ 51% в тестовом наборе (около 55 ~ на тренировке с некоторая регуляризация)
Как я могу улучшить набор данных? Или архитектура для такого маленького и сложного набора данных?