В алгоритме Q-learning, используемом в Reinforcement Learning с воспроизведением, можно использовать структуру данных, в которой хранится предыдущий опыт, который используется в обучении (базовый пример - кортеж в Python). Для сложного пространства состояний мне нужно обучить агента в очень большом количестве различных ситуаций, чтобы получить NN, который правильно аппроксимирует Q-значения. Данные опыта будут занимать все больше и больше памяти, и поэтому я должен установить более высокий предел для количества опыта, который будет сохранен, после чего компьютер должен отбросить опыт из памяти.
Как вы думаете, FIFO (первым пришел - первым обслужен) был бы хорошим способом манипулирования процедурой исчезновения данных в памяти агента (таким образом, после достижения предела памяти я отбросил бы самый старый опыт, который может быть полезен для разрешения агенту быстрее адаптироваться к изменениям в среде)? Как я могу вычислить хорошее максимальное количество опытов в памяти, чтобы убедиться, что Q-обучение на NN агента сходится к необходимому мне приближению Q-функции (я знаю, что это можно сделать эмпирически, я хотел бы знать, если аналитический оценка для этого предела существует)?