Приоритетный повтор опыта для сточасти c среды - PullRequest
0 голосов
/ 17 июня 2020

Я попытался использовать следующий документ, чтобы улучшить обучение моего агента https://arxiv.org/pdf/1511.05952.pdf

Хотя кажется, что он очень хорошо работает в детерминированной среде c, мне кажется, что он на самом деле сделает его хуже в сточасти c один.

Предположим, что для действия A_w в состоянии S_w мы получаем 50% шанс получить награду +1000000 и 50% шанс получить награду -1000000 (и незначительное детерминированное c вознаграждение в других штатах). Таким образом, истинное значение Q для этого действия будет 0.

При обучении на любой из возможных выборок (предполагая, что оба случая находятся в памяти воспроизведения), приоритет этих выборок будет установлен на 1000000 и, следовательно, вероятность выбрать эти сэмплы для предстоящих обновлений будет стремиться к 1 (каждый из них колеблется между 0 и 1), если мы не добавляем новые сэмплы в память воспроизведения.

Следовательно, другие сэмплы никогда не будут обучены.

Мой вопрос: как нам с этим справиться? Должен ли я просто отказаться от использования этой техники в такой среде?

1 Ответ

0 голосов
/ 20 июня 2020

Авторы статьи, кажется, рассматривают этот вопрос в нескольких местах. Самое главное, они упоминают отсечение вознаграждения:

Награды и ошибки TD обрезаются, чтобы попасть в [-1, 1] по соображениям стабильности.

Это означает, что если вознаграждение равно 1000000, затем они обрезают его до 1, а если оно равно -1000000, они обрезают его до -1. Награды между -1 и 1 не меняются.

В целом алгоритмы глубокого Q-обучения очень нестабильны с экстремальными значениями вознаграждения. Поскольку они используются в обратном распространении, параметры модели, вероятно, будут сильно нарушены из-за больших значений ошибок TD, что затрудняет сходимость алгоритма. По этой причине обычно используется награда или градиентное отсечение. метод. Они используют альфа-параметр в уравнении (1), чтобы сделать политику менее жадной, если стохастичность вызывает проблему, это может помочь. Они также обсуждают приоритизацию на основе рангов как более устойчивую к величине ошибок и выбросам в Разделе 5 и говорят, что она может не понадобиться из-за «интенсивного использования отсечения».

настроены на детерминированные c награды - они также упоминают, что среды, в которых они тестировали (игры Atari), были «почти детерминированными c».

В более широком смысле, большое несоответствие награды предполагает наличие есть чему поучиться в переходе, который вы выделяете - кажется, что вы можете выиграть или проиграть игру на основе этого перехода. Если это так, алгоритм (который не знает, является ли игра детерминированной c или сточасти c) потратит очень много времени, пытаясь узнать об этом переходе. Это имеет смысл, если вы хотите научиться побеждать в игре, но в этом случае игра кажется случайной, так что вам нечему учиться.

...