У меня есть проблема, которая включает оптимизацию действий во времени:
- Предположим, у меня есть набор входных переменных
X
, где каждый X_i_t
имеет значение в каждый момент времени t = 0 ... T
. - Для каждого момента времени я хотел бы выбрать действие
a_t
из набора действий A
, - таким, чтобы функция полезности
U(a0, ..., a_T)
была максимизирована.
Обратите внимание, что функция полезности не имеет решения в замкнутой форме, и ее значение зависит от всей последовательности действий a_0 ... a_T
.
Как я буду реализовыватьчто-то вроде этого? Я очень доволен ключевым словом, которое могу использовать для поиска соответствующей литературы.Мне не нужно полное решение.- Хотя, если кто-то может указать мне на функцию sklearn в python, которая делает это, я бы точно не сказал нет ...
Моей первой интуицией была «логистическая регрессия», но нет способа назначить «правильные метки»к действию a_t
во время t
, поскольку утилита зависит от действий, предпринятых ранее и позже во временном ряду.