Глубокое обучение метод Replay Memory Vanishing - PullRequest
0 голосов
/ 27 июня 2018

В алгоритме Q-learning, используемом в Reinforcement Learning с воспроизведением, можно использовать структуру данных, в которой хранится предыдущий опыт, который используется в обучении (базовый пример - кортеж в Python). Для сложного пространства состояний мне нужно обучить агента в очень большом количестве различных ситуаций, чтобы получить NN, который правильно аппроксимирует Q-значения. Данные опыта будут занимать все больше и больше памяти, и поэтому я должен установить более высокий предел для количества опыта, который будет сохранен, после чего компьютер должен отбросить опыт из памяти.

Как вы думаете, FIFO (первым пришел - первым обслужен) был бы хорошим способом манипулирования процедурой исчезновения данных в памяти агента (таким образом, после достижения предела памяти я отбросил бы самый старый опыт, который может быть полезен для разрешения агенту быстрее адаптироваться к изменениям в среде)? Как я могу вычислить хорошее максимальное количество опытов в памяти, чтобы убедиться, что Q-обучение на NN агента сходится к необходимому мне приближению Q-функции (я знаю, что это можно сделать эмпирически, я хотел бы знать, если аналитический оценка для этого предела существует)?

1 Ответ

0 голосов
/ 16 июля 2018

В выдающейся статье о «Обучении глубокому подкреплению» DeepMind добились своих результатов, случайно выбрав, какие события следует сохранить. Остальные переживания были отброшены.

Трудно сказать, как подход FIFO повлияет на ваши результаты, не зная больше о проблеме, которую вы пытаетесь решить. Как указывает dblclik, это может привести к переобучению вашего обучающего агента. Тем не менее, стоит попробовать. Очень хорошо может быть случай, когда использование FIFO для насыщения воспроизведения опыта приведет к ускоренной скорости обучения. Я бы попробовал оба подхода и посмотрел, достигнет ли ваш агент сходимости быстрее с одним.

...