Я до сих пор не понимаю, как мы можем аппроксимировать градиент ожидания ... Действительно, невозможно отобрать точки и затем усреднить их градиенты как , у нас есть только выборки. .. (Как вычислить производные выборок ...?)
Трюк с производной логарифма , кажется, решил эту проблему, и я прочитал, что он позволяет вычислять Оценка Монте-Карло для выражений, которые были невыразимы до ...
Итак, вы можете объяснить это?
Если мы напомним формулу:
Я согласен, что невозможно отследить первое выражение с Монте-Карло, поскольку градиент p (тета) равен , а не распределению . Но почему теперь можно отследить ожидание p (theta) * grad (log (p (theta)))? Что является важным изменением?
Большое спасибо за ваши потенциальные ответы!