Усиленное обучение - применить Q-learning для планирования времени отправления грузовика для оптимизации доставки посылок - PullRequest
2 голосов
/ 10 мая 2019

У меня есть агентская модель для моделирования доставки посылки с использованием 7 грузовиков.Грузовики все стоят на складе.Я могу вручную манипулировать временем отправления каждого грузовика с различным использованием нагрузки и оценивать производительность (см. Рис. 1).

enter image description here

Тем не менее, я ищу более оптимизированный способ планирования времени отправления для каждого грузовика, чтобы я мог свести к минимуму позднюю доставку посылок имаксимизировать более раннюю доставку, чем обещают.Полученный результат может быть примерно таким, как показано ниже (см. Рис. 2), где модель может разумно определить наиболее подходящее время для отправки каждого грузовика.Примечание: время отправления грузовика напрямую влияет на своевременность доставки посылки.

Fig.2

Я понимаю, что у каждого грузовика может быть Q-таблица, содержащая всеварианты времени отправления.Тем не менее, я не уверен, как связать конечный результат (который является глобальным результатом всех грузовых автомобилей, то есть общей задержки посылок и общего количества досрочно доставленных посылок) с индивидуальным обучением и обновлением Q-значения каждого грузовика.Может ли кто-нибудь объяснить, как это сделать в этом конкретном случае (кажется, что необходимо обеспечить координацию между каждым грузовиком, чтобы повысить общую производительность)?Существуют ли другие способы поиска, подходящие для рассмотрения?

...