Я пытаюсь обучить модель для проблемы двоичной классификации с изображениями, являющимися инфракрасными (температуры) с одним каналом. После преобразования их в три канала (путем репликации 3-го канала) я попробовал две архитектуры CNN, VGG-11 и VGG-16, но не смог получить стабильное обучение (низкая точность и после 2-10 эпох (в зависимости от при корректировке скорости обучения) потери замерзают в некотором значении.
Используется стандартная архитектура VGG, кроме AdaptiveAvgPool2d()
, который впервые используется для смягчения входных данных произвольного размера. Размер входного изображения составляет 340x340.
CrossEntropyLoss()
используется с выводом меток [0,1] из указанной выше сети. Также модель обучается с нуля (из-за характера данных).
Любая идея по улучшению моей архитектуры в нужды моей проблемы? Я не нашел много работ по классификации инфракрасных изображений, поэтому любая помощь будет высоко оценена.