Объединение двух выходов нейронных сетей с максимальной функцией для совместного обучения - PullRequest
0 голосов
/ 19 октября 2019

Я хочу объединить две нейронные сети N1 и N2 в новую, объединив их функции потерь. Логиты каждой модели перед подачей через softmax-активацию объединяются. Я попытался умножить , усреднять и взять максимум каждого прогноза (на класс).

Обучение N1 и N2 индивидуально, N1 получает около60% соотв., N2 получает около 78% соотв.

Когда я их объединяю, подход со средним и умножением дает около 90% соотв., Что приятно. Однако максимальный подход составляет только около 77%.

Теперь я хочу понять, почему это так. Я использую категорическую перекрестную энтропию как потерю.

Сначала только в отношении одного образца: для прямого прохода берется только максимальный логит обеих моделей для каждого класса. Так верно ли, что при обратном распространении ошибки через этот узел максимума для каждого прогнозирования класса обновляется только N1 или N2, а именно тот, который дал максимум при прогнозировании этого класса в прямом проходе?

Если это так, разве он не должен быть способен найти глобальный минимум, просто намного медленнее?

Меня очень интересует, почему максимальный подход дает такой слабый по сравнениюк двум другим подходам.

...