Я занимаюсь проектом, который автоматически контролирует набор включений и выключений чиллеров и температуру воды на выходе (iwot). Я использовал алгоритм глубокого обучения Q.
Моя проблема в том, что я не могу создать следующее состояние после того, как я действую (включить / выключить один конкретный чиллер или настроить iwot), поскольку существует 9 переменных состояния (конденсатор, испаритель, охлаждающая вода, коэффициент использования и т. Д.), И трудно построить симулятор для этих переменных.
Однако у меня есть обходной путь. Я устанавливаю фактическую температуру воды на выходе из ледяной воды (фактическое значение iwot) для управления значением и рабочим соотношением до 95%, так как действие включает чиллер, и устанавливаю фактическое значение iwot для температуры на входе и рабочего отношения равным 0%. Недостатки этого подхода заключаются в том, что iwot и соотношение операций не могут сразу достичь контрольных значений, и другие переменные состояния также должны измениться, поскольку они взаимосвязаны.
Подводя итог, может ли обучение с подкреплением решить такую задачу, какая среда не может дать следующее состояние в соответствии с полученным действием?
Я не знаю, нахожусь ли я в правильном направлении, поэтому любое предложение будет оценено.
Добавлено:
Я нашел два многообещающих способа, многорукий бандит и контекстный бандит, но мне все еще нужен совет, спасибо.