Применение «обучения с подкреплением» на контролируемой модели обучения - PullRequest
0 голосов
/ 11 июля 2019

Можно ли использовать «обучение с подкреплением» или цикл обратной связи на контролируемой модели?

Я работал над проблемой машинного обучения, используя модель контролируемого обучения , точнее говоря, модель линейной регрессии , но я хотел бы улучшить результаты, создав цикл обратной связи на выходах прогноза, т. Е. Сообщить алгоритму, если он допустил ошибки в некоторых примерах.

Как я знаю, это в основном то, как работает обучение с подкреплением : модель учится на положительных и отрицательных отзывах.

Я обнаружил, что мы можем реализовать контролируемое обучение и обучение с подкреплениемалгоритмы, использующие PyBrain , но я не смог найти способ связать между собой.

Ответы [ 2 ]

0 голосов
/ 16 июля 2019

Усиленное обучение использовалось для настройки гиперпараметров и / или выбора оптимальных моделей обучения под наблюдением. На нем также есть статья: «Обучение оптимизации с помощью обучения с подкреплением».

Читая ответ Пабло, вы можете прочитать о «обратном распространении». Это может быть то, что вы ищете.

0 голосов
/ 11 июля 2019

Большинство (или, может быть, все) итеративных методов обучения под наблюдением уже используют цикл обратной связи на выходах прогноза.На самом деле, эта обратная связь очень информативна, поскольку предоставляет информацию с точным количеством ошибок в каждой выборке.Например, в случае стохастического градиентного спуска, где вы вычисляете погрешность каждой выборки для обновления параметров модели.

При обучении с подкреплением сигнал обратной связи (т. Е. Вознаграждение) гораздо более ограничен, чем при обучении с наблюдением.Поэтому в типичной настройке настройки некоторых параметров модели, если у вас есть набор ввода-вывода (т. Е. Набор обучающих данных), вероятно, нет смысла применять усиленное обучение.

Если вы думаетев более конкретном случае / проблеме вы должны быть более конкретны в своем вопросе.

...