Кластеризация и получение окончательных результатов, чтобы найти следующего лучшего клиента, на которого нужно ориентироваться (в рейтинге) - PullRequest
0 голосов
/ 06 февраля 2020

У меня есть проблема, когда мне нужно объединить данные о клиентах, которые имеют все возможные атрибуты, чтобы определить следующего потенциального клиента, который может стать последним клиентом с точки зрения покупки определенного продукта. Мой фрейм данных имеет около 5000 строк и 51 функцию, из которой мне нужно получить этот результат. Я понимаю, что сначала мне нужно выполнить кластеризацию, чтобы сформировать правильные группы, но что дальше? Я уже выполнил следующие шаги:

EDA 
Correlation analysis
Enoding of categorical features
Scaling of the data basis standard scalar 
PCA - Achieved a final set of 21 components retained within 90% variance

Во-первых, как я использовал конечные компоненты в виде набора данных в алгоритм кластеризации? Во-вторых, какой метод кластеризации лучше всего подходит для такой проблемы? Иерархически-агломеративный?

После кластеризации мне нужно построить модель таким образом, чтобы в окончательном выводе был указан идентификатор клиента, а следующие 5 лучших клиентов оценили в порядке заказа комбинацию самых сильных атрибутов. Например: Расход, Пол, Зарплата, Площадь, в которой они живут, и т. Д. c

Это неконтролируемая проблема, но в конечном итоге мне нужно разбить набор данных на тестовые данные и обработать данные с целевой переменной ". Важные клиенты »с флагом 0 и 1, который определяет моих потенциальных важных целевых клиентов. Модель должна быть в состоянии дать мне список клиентов с их 5 потенциальными преемниками в порядке ранжирования (от высшего к низшему)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...