Я ищу решение для обучения DNNClassifier (4 класса, 20 чисел c функций) из несбалансированного файла данных вознагражденных образцов. Каждый класс представляет игровое действие и награждает счет действия. Особенности даны наблюдения. Таким образом, это выглядит как модель QLearning ... Но модель QLearning - это онлайновый метод обучения без данных.
Я пытался справиться с весами одного образца по следующей формуле:
weight = ((reward- minreward) / (maxreward-minreward)) * (totalalsamples / classsamples)
с 180 тыс. образцов, низкая точность; 490 тыс. Образцов с точностью 83%; не достаточно, чтобы быть хорошим.
Так каков наилучший способ выполнить это:
- с весом, как я, но с большим количеством образцов или другой формулой
- с алгоритм QLearning (но не знаю, как это сделать ...)
- с алгоритмом обучения рангу (не найдено ни одного хорошего и полного учебника)
Спасибо за ответ