У меня есть небольшое недопонимание относительно принуждения учителя:
Для простоты предположим, что мы смотрим на RNN, который обеспечивает вывод o^{t-1}
на каждом шаге.Этот выход является единственным рекурсивным входом, который связан со скрытой единицей h ^ t следующего временного шага.
Насколько я понимаю, максимальная вероятность говорит о том, что применение принудительного воздействия учителя математически эквивалентно выполнению всей спиныАлгоритм распространения по времени.Другими словами, мы получим идентичные результаты, если мы применим обратное распространение во времени (конечно, с теми же начальными весами).Это следует из
log p(y^1, y^2 | x^1, x^2) = log p(y^2 | y^1, x^1, x^2) + log p(y^1 | x^1, x^2)
(уравнение 10.16 Гудфеллоу, Бенжио, Курвиль).
Это правильно?Если да, то почему мы используем «рандомизированные методы», когда мы либо используем принуждение учителя, либо нет на каждом этапе для улучшения нашей сети?