Почему мы используем трюк с лог-производной для оценки Монте-Карло? - PullRequest
0 голосов
/ 07 ноября 2019

Я до сих пор не понимаю, как мы можем аппроксимировать градиент ожидания ... Действительно, невозможно отобрать точки и затем усреднить их градиенты как , у нас есть только выборки. .. (Как вычислить производные выборок ...?)

Трюк с производной логарифма , кажется, решил эту проблему, и я прочитал, что он позволяет вычислять Оценка Монте-Карло для выражений, которые были невыразимы до ...

Итак, вы можете объяснить это?

Если мы напомним формулу:

Я согласен, что невозможно отследить первое выражение с Монте-Карло, поскольку градиент p (тета) равен , а не распределению . Но почему теперь можно отследить ожидание p (theta) * grad (log (p (theta)))? Что является важным изменением?

Большое спасибо за ваши потенциальные ответы!

...