Допустим, у нас есть алгоритм, который задает точку набора данных, он выполняет некоторый анализ и возвращает результаты. Алгоритм имеет пользовательский параметр X, который влияет на время выполнения алгоритма (результат алгоритма всегда постоянен для одной и той же входной точки). Кроме того, мы уже знаем, что существует связь между точкой набора данных и параметром X. Например, если две точки набора данных близки друг к другу, их параметр X также будет одинаковым.
Можем ли мы сказать, что в этом примере мы имеем следующее и, таким образом, можем использовать Q-Learning, чтобы найти наилучший параметр X для любой точки набора данных?
- Исходное состояние: точка набора данных, текущее значение X (для начального состояния = 0)
- Состояние терминала: точка набора данных, текущее значение X (значение, выбранное на основе действия)
- Действия: Различные значения, которые X может иметь
- Награда: -1, если время выполнения уменьшается, +1, если оно увеличивается, 0, если оно остается прежним
Правильно ли, если мы определяем разные точки входного набора данных как эпизоды и разные значения X как шаги в каждом эпизоде (где на каждом шаге действие выбирается либо случайно, либо по сети)? В этом случае, что будет входом в нейронную сеть?
Поскольку все примеры и реализации, которые я видел до сих пор, содержат несколько состояний, где каждое состояние зависит от предыдущего, я путать с моим сценарием, где у меня есть только два состояния.