У меня есть набор данных, состоящий из нескольких функций:
customerId, actionDay1, SalesDay1, actionDay20, SalesDay20, actionDay30, salesDay30.
Действие может быть:
вызов
1012 E-mail * ** * 1013
лицо 2 лицо
ничего
продажи:
сумма продаж в $ 1024 *
Моя цель здесь - предсказать лучшее действие, которое мы должны предпринять в любой день (1, 20 или 30), чтобы продать больше.
некоторые клиенты предпочитают электронную почту, некоторые предпочитают звонить каждый раз, другие предпочитают, чтобы с ними не связывались для покупки.
шаблон отличается для каждого клиента.
Моей первой мыслью было применить усиленное обучение к этой проблеме, но я обнаружил некоторые трудности в создании правильной среды, а также функции вознаграждения. обучение с подкреплением будет работать без данных, и модель будет отличаться для каждого клиента. Я хотел бы иметь модель, которая может приблизиться к поведению всех клиентов, использующих мой набор данных.
Кто-нибудь имеет представление о том, как я могу подойти к этой проблеме, используя обучение с подкреплением или что-то другое, как Recurrent Neural Net?