Я пытаюсь создать модель обучения с подкреплением для оценки компании, основываясь на финансовых результатах компании. В оценке я буду использовать финансовый тренд, чтобы дать агенту вознаграждение. Во время обучения я хочу дать вознаграждение, если фактическая цена акций выросла, когда нужно было увеличить оценку (то есть курс акций), скажем, на конец квартала. Могу ли я сделать это? то есть сохранить отдельную систему вознаграждений за обучение и оценку?