Я пробую обучать модели глубокого подкрепления обучению задачу выхода из лабиринта, и каждый раз, когда в качестве входных данных берется одно изображение (например, другой «лабиринт»).
Предположим, у меня около 10K.различные изображения лабиринта, и идеальный случай - то, что после обучения N лабиринтов моя модель хорошо справилась бы с задачей, чтобы быстро решить головоломку в остальных 10K - N изображениях.
Я пишу, чтобы узнать несколько хороших идей / эмпирических доказательств того, как правильно выбрать N для учебного задания.
И вообще, как я должен оценивать и улучшать способность "перевода"изучение моей модели подкрепления?Сделать это более обобщенным?
Буду очень признателен за любые советы или предложения.Спасибо.