Мой вопрос звучит абстрактно, но мне интересно, как люди обучают модели CNN.
Вот мой случай.
Я играл с моделью CNN, пытаясь классифицировать данные изображения в 3 категории. Набор данных сбалансирован. Изображение имеет вид (12, 12, 4) и представляет собой временной ряд, закодированный в тепловой карте, и я не думаю, что в этом случае полезно использовать увеличение данных, поскольку оно может не иметь смысла, если я переворачиваю его по горизонтали или вертикали, если я поворачиваю их, и т. д. c.
Лучший результат, который я получил, составлял около 52% cc из набора проверки и около 38% из набора тестов.
Я начал реализовывать очень простую модель это имеет 2 слоя Conv без объединения слоев, чтобы избежать усечения характеристик временного ряда. И добавлены плотные слои, один для скрытого, а другой для выходного слоя.
Я протестировал некоторые методы, которые могли бы помочь улучшить его производительность, такие как планировщик LR, изменив различные функции активации и оптимизаторы, но получил крошечные улучшения.
Вот что я хочу спросить у людей, имеющих опыт работы с CNN.
В этой ситуации, о которой я упоминал выше, что бы вы сделали вначале? Настройка гиперпараметров была бы вариантом, но как бы вы их настроили? Как бы вы выбрали параметры для настройки?
Как выбрать архитектуру модели? Как и количество слоев, количество нейронов в каждом слое и как вы решаете, какой тип слоя вы используете?
Есть ли какие-либо сообщения в блоге или статьи, связанные с моим вопросом?
Если у кого-то есть совет, я был бы вам благодарен!