Таким образом, последний поток, который я написал о Reinforcement Learning, был отмечен как слишком широкий, что я полностью понял. Я никогда не работал с этим раньше, поэтому я пытаюсь выучить это самостоятельно - пока задача не из легких. Теперь я читал некоторые статьи и пытался основывать свой подход на том, чему я научился у них, но я не уверен, имеет ли смысл то, что я делаю, поэтому я был бы признателен за помощь здесь!
По сути, я хочу посчитать, сколько заказывать каждый день, используя Q-learning. Ниже приведена соответствующая часть кода - Ip, Im уже был вычислен ранее в коде путем вычисления порядка каждого дня без обучения с подкреплением, чтобы я мог затем ввести это в свой алгоритм и обучить его.
Я разделил мои состояния на 9 (в зависимости от того, сколько у меня есть акций) и мои действия на 9 (каждое означает, что я должен заказать определенное значение). Моя функция вознаграждения - это моя целевая функция, то есть моя общая стоимость, которую я хочу минимизировать (так что это действительно функция «потерь»). Тем не менее, это не очень оптимизируется, я полагаю, потому что матрица Q не обучается должным образом, кажется, слишком случайным. Любые мысли о том, как улучшить / исправить этот код?
# Training
# Ip - on-hand inventory
# Im - Lost orders
# T - no. of days (360)
# Qt - order quantity
def reward(t):
return h*Ip[t]+b*Im[t]
Q = np.matrix(np.zeros([9,9]))
iteration = 0
t = 0
MAX_ITERATION = 500
alp = 0.2 # learning rate (between 0 and 1)
exploitation_p = 0.15 # exploitation probability (incresed after each iteration until it reaches 1)
while iteration <= MAX_ITERATION:
while t < T-1:
if Ip[t] <= 8:
state = 0
if Ip[t] > 8 and Ip[t] <= 14:
state = 1
if Ip[t] > 14 and Ip[t] <= 20:
state = 2
if Ip[t] > 20 and Ip[t] <= 26:
state = 3
if Ip[t] > 26 and Ip[t] <= 32:
state = 4
if Ip[t] > 32 and Ip[t] <= 38:
state = 5
if Ip[t] > 38 and Ip[t] <= 44:
state = 6
if Ip[t] > 44 and Ip[t] <= 50:
state = 7
if Ip[t] > 50:
state = 8
rd = random.random()
if rd < exploitation_p:
action = np.where(Q[state,] == np.max(Q[state,]))[1]
if np.size(action) > 1:
action = np.random.choice(action,1)
elif rd >= exploitation_p:
av_act = np.where(Q[state,] < 999999)[1]
action = np.random.choice(av_act,1)
action = int(action)
rew = reward(t+1)
if Ip[t+1] <= 8:
next_state = 0
if Ip[t+1] > 8 and Ip[t+1] <= 14:
next_state = 1
if Ip[t+1] > 14 and Ip[t+1] <= 20:
next_state = 2
if Ip[t+1] > 20 and Ip[t+1] <= 26:
next_state = 3
if Ip[t+1] > 26 and Ip[t+1] <= 32:
next_state = 4
if Ip[t+1] > 32 and Ip[t+1] <= 38:
next_state = 5
if Ip[t+1] > 38 and Ip[t+1] <= 44:
next_state = 6
if Ip[t+1] > 44 and Ip[t+1] <= 50:
next_state = 7
if Ip[t+1] > 50:
next_state = 8
next_action = np.where(Q[next_state,] == np.max(Q[next_state,]))[1]
if np.size(next_action) > 1:
next_action = np.random.choice(next_action,1)
next_action = int(next_action)
Q[state, action] = Q[state, action] + alp*(-rew+Q[next_state, next_action]-Q[state, action])
t += 1
if (exploitation_p < 1):
exploitation_p = exploitation_p + 0.05
t = 0
iteration += 1
# Testing
Ip = [0] * T
Im = [0] * T
It[0] = I0 - d[0]
if (It[0] >= 0):
Ip[0] = It[0]
else:
Im[0] = -It[0]
Qt[0] = 0
Qbase = 100
sumIp = Ip[0]
sumIm = Im[0]
i = 1
while i < T:
if (i - LT >= 0):
It[i] = Ip[i-1] - d[i] + Qt[i-LT]
else:
It[i] = Ip[i-1] - d[i]
It[i] = round(It[i], 0)
if It[i] >= 0:
Ip[i] = It[i]
else:
Im[i] = -It[i]
if Ip[i] <= 8:
state = 0
if Ip[i] > 8 and Ip[i] <= 14:
state = 1
if Ip[i] > 14 and Ip[i] <= 20:
state = 2
if Ip[i] > 20 and Ip[i] <= 26:
state = 3
if Ip[i] > 26 and Ip[i] <= 32:
state = 4
if Ip[i] > 32 and Ip[i] <= 38:
state = 5
if Ip[i] > 38 and Ip[i] <= 44:
state = 6
if Ip[i] > 44 and Ip[i] <= 50:
state = 7
if Ip[i] > 50:
state = 8
action = np.where(Q[state,] == np.max(Q[state,]))[1]
if np.size(action) > 1:
action = np.random.choice(action,1)
action = int(action)
if action == 0:
Qt[i] = Qbase
if action == 1:
Qt[i] = Qbase * 0.95
if action == 2:
Qt[i] = Qbase * 0.9
if action == 3:
Qt[i] = Qbase * 0.85
if action == 4:
Qt[i] = Qbase * 0.8
if action == 5:
Qt[i] = Qbase * 0.75
if action == 6:
Qt[i] = Qbase * 0.7
if action == 7:
Qt[i] = Qbase * 0.65
if action == 8:
Qt[i] = Qbase * 0.6
sumIp = sumIp + Ip[i]
sumIm = sumIm + Im[i]
i += 1
objfunc = h*sumIp+b*sumIm
print(objfunc)
Если вы хотите / хотите запустить его, это мой полный код: https://pastebin.com/vU5V0ehg
Заранее спасибо!
P.S. Я полагаю, что мой MAX_ITERATION должен быть выше (в большинстве работ, кажется, используется 10000), но мой компьютер слишком долго запускает программу, поэтому я использую 500.