Создание агента dqn и попытка понять, почему вызов соответствия в моем коде на несколько порядков медленнее (более 1 с), чем в другом примере, который я нашел (1 мс). Нейронные сети почти одинаковы, в примере больше соединений, но это единственное отличие (моя альфа настроена на ту же скорость обучения, что и в примере NN).
Не знаю, что может вызвать такую разницу ввремя исполнения. Я подумал, что, возможно, это было способом форматирования данных перед вызовом fit, но похоже, что все одинаково.
Мои результаты:

Пример результатов:

Мой NN:
q = Sequential()
q.add(Dense(24, input_dim=n_states, activation='relu'))
q.add(Dense(24, activation='relu'))
q.add(Dense(n_actions, activation='linear'))
q.compile(loss='mse', optimizer=Adam(lr=alpha))
Пример NN:
model = Sequential()
model.add(Dense(32, input_dim=nS, activation='relu'))
model.add(Dense(32, activation='relu'))
model.add(Dense(32, activation='relu'))
model.add(Dense(nA, activation='linear'))
model.compile(loss='mse', optimizer=Adam(lr=0.01))