Поиск алгоритма RL для конкретной задачи - PullRequest
0 голосов
/ 08 декабря 2018

У меня есть агент, который должен реагировать на различные вводимые мной данные.Пусть 'A-> B' обозначает реакцию B агента на вход A.

Я хочу, чтобы мой агент научился реагировать по-разному в зависимости от истории входов.Например, пусть каждый «эпизод» состоит из: 1. Я делаю вклад.2. Агент реагирует.3. Я делаю еще один вклад.4. Агент Реагирующий.5. Конец эпизода.

Если есть два возможных входа i1 и i2 и два возможных действия a1 и a2, я хочу, чтобы мой агент реагировал следующим образом во всех возможных эпизодах (значения не так важны): i1-> a2, i1-> a1;i1-> a2, i2-> a1;i2-> a2, i1-> a2;i2-> a2, i2-> a1;

т.е. я хочу, чтобы мой агент по-разному реагировал на вход второго этапа в зависимости от входов первого и второго этапа.

Вопрос: Какой будет подходящий алгоритм RL, чтобы изучить это?В начале я хотел использовать Q-Learning, но проблема в том, что мои переходы состояний не зависят от действий агента.Т.е., если он реагирует с a1 на i1, агент в этот момент не знает, будет ли следующим «состоянием» будет i1 или i2.

Помощь будет принята с благодарностью.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...