Я пытаюсь запустить модели машинного обучения для клиентов, пытающихся сегментировать клиентов, использующих сходные продукты.Мой набор данных огромен с 2,4 миллионами записей и имеет следующий формат:
customer_id prod_1 prod_2 prod_3 prod_4 ..... prod_10
000 1 0 0 1 ..... 1
001 0 0 1 1 ..... 1
011 0 1 0 1 ..... 0
021 1 0 1 1 ..... 0
...
Каждая строка имеет номер клиента и 1 или 0 в зависимости от того, есть ли у них продукт.Я запустил k-means, и результаты не выглядели впечатляюще.
Любые другие предложения о том, какие модели можно использовать на таких данных для сегментирования клиентов на основе продуктов, которые они используют вместе?