У меня есть набор данных только объектов, извлеченных из CNN (массив 4096), соединенных с другим массивом из 512 данных Gist изображений (всего 4602 объекта на образец). Функции, извлеченные из 2D-изображений (сцен) У меня нет доступа к изображениям, только к их функциям. Цель состоит в том, чтобы подготовить классификатор, который может определить, является ли сцена запоминающейся или нет (так что 2 категории).
Проблема в следующем:
- Независимо от того, какая модель архитектуры (Использование плотного) и отсева со всеми видами параметров) Я использую, моя модель всегда оказывается смещена только к одной категории (классифицирует все 0 или все 1). Точность остается на уровне 70%, в то время как потери становятся ниже 1,0
То, что я пробовал:
Различные параметры для слоев
Разное количество скрытых слоев
различные функции потерь (двоичный_кросентропия, sparse_categorical_crossentropy, mean_squared_error ...)
Различные оптимизаторы с разные скорости обучения в диапазоне от 0,0001 до 0,01 (Адам, SGD)
Я пробовал тренироваться только на первых 4096 функциях CNN, а также только на 512 Gist. и оба сцеплены.
Примечания:
- Элементы извлечены из последнего слоя Conv Caff eNet.
- Эта модель будет использоваться на объектах, извлеченных тем же слоем Caff eNet.