Я не эксперт по данной теме, но я постараюсь ответить напрямую на ваши многочисленные вопросы
[Кстати, я должен получить многократные повторы для каждого вопроса! ... Шучу, если бы я был «для SO повторений», я бы остался в стороне от публикации, которая получит всего 20 просмотров с половиной из них. посетители, имеющие приблизительное представление о концепциях]
1) Q-Learning двухфазная вещь?
Да, Q-Learning подразумевает две фазы: фазу обучения и фазу действия. Как и во многих автоматизированных алгоритмах обучения, в процессе действия можно «продолжать обучение».
2) Бесконечное число шагов для оптимальной матрицы G?
Не уверен, где утверждение требует бесконечного количества циклов обучения, чтобы выучить оптимальную матрицу Q. Чтобы быть уверенным (и если альфа- и гамма-факторы неверны), алгоритм сходится, хотя бы с очень медленной скоростью. Это побуждает меня пропустить и прокомментировать вашу идею игрового пространства 300x200, и хорошо ... ДА !, для такого пространства, при данной модели вознаграждения, потребуется то, что кажется бесконечным, чтобы получить «оптимальную» таблицу Q , Теперь, возможно, математически алгоритм никогда не достигнет оптимальной ниварны, но для практических решений работа над асимптотой достаточно хороша.
3) Роль гаммы в модели TD
Это указывает на важность отсрочки вознаграждений на пути (здесь, в буквальном смысле, к вашей модели) к более высоким вознаграждениям. Как правило, это предотвращает застревание алгоритма в локальных максимумах пространства решений за счет замедления процесса обучения ...
4) Предложения по изучению большого лабиринта
С риском предать природу Q-Learning, вы можете запустить робота на все большем расстоянии от цели. Это поможет улучшить матрицу Q в области состояний, которые сначала окружают цель, а затем использовать эту частично изученную матрицу Q в качестве исходного состояния, взятого случайным образом в пределах увеличивающегося радиуса от цели.
Другим, более рискованным подходом (и, возможно, таким, который может еще больше опровергать истинную природу Q-Learning), было бы изменение матрицы R для обеспечения все более высоких вознаграждений в случайном порядке, расположенном на уменьшающемся расстоянии от цели. Недостатком этого подхода является то, что он может вводить возможности многих локальных максимумов в пространстве решений, где алгоритм может застрять, если скорость обучения и другие факторы не настроены должным образом.
Оба эти подхода, в частности последний, могут быть интерпретированы как ваша (дизайнерская) «разводка» в решении. Другие скажут, что это всего лишь способ внести в микстуру черту DP ...
5) Нейронная сеть (NN) 6) Генетический алгоритм (GA)
Нет мнения о добавлении NN или GA в смесь.
Я, вероятно, сделал достаточно себя дурака с некоторыми из менее математически точного утверждения выше. ; -)