argmax из вероятностного распределения лучше политики, чем случайная выборка из softmax? - PullRequest
0 голосов
/ 03 мая 2019

Я пытаюсь обучить Echo State Network для генерации текста со стохастической оптимизацией по линии обучения подкреплению, где оптимизация зависит от сигнала вознаграждения.

Я заметил, что во время оценки, когда я выбираю из распределения вероятностей, показатель bleu больше, чем когда я argmax из распределения. Разница составляет почти более 0,10 балла (оценка BLEU обычно находится в диапазоне от 0 до 1). Я не уверен, почему это происходит. Требуется помощь.

1 Ответ

2 голосов
/ 03 мая 2019

Вы не используете функцию argmax, так как это детерминированный подход. И главная проблема в том, что это может легко запутать вас. Это означает, что в случае ошибки при генерации текста вы, вероятно, продолжите идти по этому пути без какой-либо возможности выбраться. Случайность позволяет «выпрыгнуть» из цикла.

Хорошим примером, иллюстрирующим необходимость перехода, является, например, алгоритм Page Rank. Он использует параметр случайного блуждания, который позволяет воображаемому серферу выйти из тупика.

Команда TensorFlow говорит об этом в своих сообщениях об этом (без всякого обоснования) :

Примечание. Важно сделать выборку из этого распределения, поскольку взятие argmax из распределения может легко привести модель к зацикливанию.

...