У меня есть фрейм данных, который состоит из следующих данных:
cus_id sex city state product_type var1 var2 type score
CA-1 Male ABC New York type-1 10 10 P-1 750
CA-2 Female ABC Alaska type-2 10 9.5 P-2 850
CA-3 Male Denver dfdfd type-3 10 11.1 P-3 560
CA-4 Female esx Nsdfe type-4 15 15 P-3 734
CA-5 Male dfr dfdedc type-5 13 12.9 P-3 798
CA-6 Male xds Nsdfe type-6 14.5 10.8 P-2 700
CA-7 Female edf New York type-5 14.2 14 P-2 550
CA-8 Female xde New York type-5 04 04 P-1 650
CA-9 Male wer New York type-1 10 11 P-1 730
Используя вышеупомянутый фрейм данных, я хочу создать сегмент с учетом переменных sex
, City
, State
и score
для указанных ниже независимых параметров.
- product_type: это тип c от типа 1 к типу-7
- тип: это тип c от С-1 до С-3
Счет варьируется от 100 до 1000, который мы можем разбить согласно сегменту, определенному для product_type
и type
Я хочу определить кластер, в котором отличие значения var2
от значения var1
минимально в процентах. Например, для cus_id CA-1
совпадение составляет 100%, поэтому у нас будет сегмент на 100% с соответствующими переменными пола, города, штата и счета.
Я не знаю, как создать кластер, используя К означает, Нужен подход и предложение со стороны.