Как применить усиленное обучение, когда следующее состояние недостижимо? - PullRequest
0 голосов
/ 25 апреля 2019

Я занимаюсь проектом, который автоматически контролирует набор включений и выключений чиллеров и температуру воды на выходе (iwot). Я использовал алгоритм глубокого обучения Q.

Моя проблема в том, что я не могу создать следующее состояние после того, как я действую (включить / выключить один конкретный чиллер или настроить iwot), поскольку существует 9 переменных состояния (конденсатор, испаритель, охлаждающая вода, коэффициент использования и т. Д.), И трудно построить симулятор для этих переменных.

Однако у меня есть обходной путь. Я устанавливаю фактическую температуру воды на выходе из ледяной воды (фактическое значение iwot) для управления значением и рабочим соотношением до 95%, так как действие включает чиллер, и устанавливаю фактическое значение iwot для температуры на входе и рабочего отношения равным 0%. Недостатки этого подхода заключаются в том, что iwot и соотношение операций не могут сразу достичь контрольных значений, и другие переменные состояния также должны измениться, поскольку они взаимосвязаны.

Подводя итог, может ли обучение с подкреплением решить такую ​​задачу, какая среда не может дать следующее состояние в соответствии с полученным действием?

Я не знаю, нахожусь ли я в правильном направлении, поэтому любое предложение будет оценено.

Добавлено: Я нашел два многообещающих способа, многорукий бандит и контекстный бандит, но мне все еще нужен совет, спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...