Каков наилучший способ справиться с несбалансированным примером базы данных с наградами - PullRequest
1 голос
/ 23 января 2020

Я ищу решение для обучения DNNClassifier (4 класса, 20 чисел c функций) из несбалансированного файла данных вознагражденных образцов. Каждый класс представляет игровое действие и награждает счет действия. Особенности даны наблюдения. Таким образом, это выглядит как модель QLearning ... Но модель QLearning - это онлайновый метод обучения без данных.

Я пытался справиться с весами одного образца по следующей формуле:

weight = ((reward- minreward) / (maxreward-minreward)) * (totalalsamples / classsamples)

с 180 тыс. образцов, низкая точность; 490 тыс. Образцов с точностью 83%; не достаточно, чтобы быть хорошим.

Так каков наилучший способ выполнить это:

  • с весом, как я, но с большим количеством образцов или другой формулой
  • с алгоритм QLearning (но не знаю, как это сделать ...)
  • с алгоритмом обучения рангу (не найдено ни одного хорошего и полного учебника)

Спасибо за ответ

...