Укрепление обучения с нейронными сетями - PullRequest
1 голос
/ 01 мая 2010
  • Я работаю над проектом с RL & NN
  • Мне нужно определить структуру вектора действия, которая будет поступать в нейронную сеть.

У меня есть 3 различных действия (A & B и Nothing), каждое из которых имеет разные полномочия (например, A100 A50 B100 B50) Интересно, как лучше всего передать эти действия NN, чтобы получить лучшие результаты?

1 - подача A / B на вход 1, в то время как сила действия 100/50 / Ничего на ввод 2

2- подача A100 / A50 / ничего для ввода 1, а B100 / B50 / ничего для ввода 2

3 - подача A100 / A50 на вход 1, в то время как B100 / B50 на вход 2, а Nothing помечает для ввода 3

4- Также кормить 100 и 50 или нормализовать их до 2 & 1?

Мне нужны причины, чтобы выбрать один метод Любые предложения рекомендуются

Спасибо

1 Ответ

1 голос
/ 27 мая 2010

Чему ты хочешь научиться? Какой должен быть выход? Является ли ввод только используемым действием? Если вы изучаете модель среды, она выражается распределением вероятностей:

P (next_state | состояние, действие)

Обычно для каждого действия используется отдельная модель. Это упрощает сопоставление между вводом и выводом. Входные данные представляют собой вектор состояний. Вывод является вектором признаков следующего состояния. Используемое действие подразумевается моделью.

Характеристики состояния могут быть закодированы как биты. Активный бит будет указывать на наличие функции.

Это выучило бы детерминистическую модель. Я не знаю, как можно выучить стохастическую модель следующих состояний. Одной из возможностей может быть использование стохастических нейронов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...