У меня следующая проблема, и мне было интересно, может ли помочь обучение с подкреплением:
I have a set of objects and these objects are supposed to belong to two classes. The way to choose to which class each object belongs is by maximizing a certain reward function (known) that depends on certain input features.
Я пытался смоделировать это как проблему с несколькими метками, но это не помогает, посколькуЯ забочусь о том, чтобы функция вознаграждения была максимальной. Мои знания в обучении подкреплению ограничены, поэтому я хочу знать, можно ли это смоделировать, прежде чем начать углубляться в этот подход.