У меня есть проблема, когда мне нужно объединить данные о клиентах, которые имеют все возможные атрибуты, чтобы определить следующего потенциального клиента, который может стать последним клиентом с точки зрения покупки определенного продукта. Мой фрейм данных имеет около 5000 строк и 51 функцию, из которой мне нужно получить этот результат. Я понимаю, что сначала мне нужно выполнить кластеризацию, чтобы сформировать правильные группы, но что дальше? Я уже выполнил следующие шаги:
EDA
Correlation analysis
Enoding of categorical features
Scaling of the data basis standard scalar
PCA - Achieved a final set of 21 components retained within 90% variance
Во-первых, как я использовал конечные компоненты в виде набора данных в алгоритм кластеризации? Во-вторых, какой метод кластеризации лучше всего подходит для такой проблемы? Иерархически-агломеративный?
После кластеризации мне нужно построить модель таким образом, чтобы в окончательном выводе был указан идентификатор клиента, а следующие 5 лучших клиентов оценили в порядке заказа комбинацию самых сильных атрибутов. Например: Расход, Пол, Зарплата, Площадь, в которой они живут, и т. Д. c
Это неконтролируемая проблема, но в конечном итоге мне нужно разбить набор данных на тестовые данные и обработать данные с целевой переменной ". Важные клиенты »с флагом 0 и 1, который определяет моих потенциальных важных целевых клиентов. Модель должна быть в состоянии дать мне список клиентов с их 5 потенциальными преемниками в порядке ранжирования (от высшего к низшему)