Question

Допустим, у нас есть алгоритм, который задает точку набора данных, он выполняет некоторый анализ и возвращает результаты. Алгоритм имеет пользовательский параметр X, который влияет на время выполнения алгоритма (результат алгоритма всегда постоянен для одной и той же входной точки). Кроме того, мы уже знаем, что существует связь между точкой набора данных и параметром X. Например, если две точки набора данных близки друг к другу, их параметр X также будет одинаковым.

Можем ли мы сказать, что в этом примере мы имеем следующее и, таким образом, можем использовать Q-Learning, чтобы найти наилучший параметр X для любой точки набора данных?

Исходное состояние: точка набора данных, текущее значение X (для начального состояния = 0)
Состояние терминала: точка набора данных, текущее значение X (значение, выбранное на основе действия)
Действия: Различные значения, которые X может иметь
Награда: -1, если время выполнения уменьшается, +1, если оно увеличивается, 0, если оно остается прежним

Правильно ли, если мы определяем разные точки входного набора данных как эпизоды и разные значения X как шаги в каждом эпизоде (где на каждом шаге действие выбирается либо случайно, либо по сети)? В этом случае, что будет входом в нейронную сеть?

Поскольку все примеры и реализации, которые я видел до сих пор, содержат несколько состояний, где каждое состояние зависит от предыдущего, я путать с моим сценарием, где у меня есть только два состояния.

Применяется ли здесь Q-Learning?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Применяется ли здесь Q-Learning?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы