Является ли математически обоснованным применение подхода вариационного вывода для получения неопределенности на выходе нейронной сети линейной регрессии.
Я использую проблему обнаружения лицевых ключевых точек (https://www.kaggle.com/c/facial-keypoints-detection) как проблема с игрушкой. Моя цель - предсказать y_hat
, координаты ключевых точек с доверительной оценкой. Я реализовал в keras модель с кодером Neural Net (несколько слоев Conv2D и MaxPooling), который берет изображениевведите X и выведите параметры \ mu и \ sigma распределения, затем выполните выборку из этого распределения и выведите yhat
. Архитектура моей модели аналогична 1-й части VAE, а потери - это сумма MSE.и дивергенция KL.
В то время как термин MSE в VAE вычисляет ошибку восстановления (\propto (x - Xhat)^2
, в моем случае ошибка MSE составляет \propto(y - yhat)^2
.
Общая потеря примерно в 100 раз выше по сравнениюк модели, которая будет пытаться предсказать непосредственно yhat
(без выборки). Я понимаю, что с термином KL в качестве регуляризатора, модельне только минимизирует точность.Но, тем не менее, похоже, что термин KL затухает во многих аспектах.