Почему вы ожидаете, что это сработает?
Ваша тренировка едва ли может приблизиться к одномерной функции.И теперь вы ожидаете, что это решит 12-мерную функцию, которая включает в себя дифференциальное уравнение?Сначала вы должны были проверить, сходятся ли ваши тренировки для многомерной функции, с выбранными параметрами обучения.
Ваша тренировка, учитывая предоставленную вами небольшую детализацию, также кажется неподходящей.Вряд ли есть шанс, что он когда-нибудь успешно поймает мяч, и даже если это произойдет, вы будете вознаграждать его в основном за случайные результаты.Только корреляция между входом и выходом находится в последних нескольких кадрах, когда пэд может достичь цели только во времени с помощью ограниченного набора возможных действий.
Тогда есть выбор входов.Не требуйте от вашей модели дифференциации.Соответствующие входные данные были бы x, y, dx, dy.Желательно даже x, y относительно позиции пэда, а не мира.Должен иметь гораздо больше шансов сходиться.Даже если бы он только учился сохранять х минимальным.
Работа с абсолютными мировыми координатами в значительной степени обречена на неудачу, поскольку для обучения потребовалось бы охватить весь диапазон возможных входных комбинаций.А также сеть должна быть достаточно большой, чтобы хранить все комбинации.Имейте в виду, что сеть не изучает фактическую функцию, она изучает приближение для каждого возможного набора входных данных.Даже если идеальным решением на самом деле является просто линейное уравнение, нелинейные свойства функции активации делают невозможным его изучение в обобщенном виде для несвязанных входных данных.