Положительные и отрицательные награды из базы данных для классификации в тензорном потоке - PullRequest
0 голосов
/ 04 апреля 2019

Я пытаюсь обучить DNNClassifier играть в простую игру. Каждая запись содержит категориальную метку действия, особенности и оценку / награду в связи с действием. Оценка может быть отрицательной или положительной.

Я читал в нескольких постах, что это не просто подкрепление, потому что оно сделано из набора данных.

Структура данных:

Действие (метка); Feature1 (категория строки); Feature2 (плавать); Feature3 (плавать); вознаграждение (плавать)

Моя цель - найти лучший (более высокий) балл вознаграждения для данной ситуации, определенной особенностями. Иногда не существует «хорошего» (положительного) решения, поэтому приходится искать «менее худшее».

1) Есть ли «готовая» функция для нормализации моих отрицательных наград?

Я пытался:

потеря = потеря * ((6-награда) / 6)

но не кажется хорошим ...

2) Является ли использование потерь хорошим способом сделать это ??

Спасибо за ответ.

Gerard

потеря = потеря * ((6-награда) / 6)

...