Можно ли использовать «обучение с подкреплением» или цикл обратной связи на контролируемой модели?
Я работал над проблемой машинного обучения, используя модель контролируемого обучения , точнее говоря, модель линейной регрессии , но я хотел бы улучшить результаты, создав цикл обратной связи на выходах прогноза, т. Е. Сообщить алгоритму, если он допустил ошибки в некоторых примерах.
Как я знаю, это в основном то, как работает обучение с подкреплением : модель учится на положительных и отрицательных отзывах.
Я обнаружил, что мы можем реализовать контролируемое обучение и обучение с подкреплениемалгоритмы, использующие PyBrain , но я не смог найти способ связать между собой.