Я решаю простой Gridworld (10 * 12) с Q обучения. Я часто запускаю свой код, и во всех них начало - это состояние (1,1), и агент застрял в углу gridworld. (в колонке 12) и не двигайтесь в центр, в котором находится награда. Кто-нибудь может сказать мне, почему агент застрял в этой области? а также на первом шаге алгоритма, правее действия чаще введите описание изображения здесь . Нужно ли менять какие-либо параметры? Я не знаю, и это сводило меня с ума!