Question

Я работаю с данными ежедневного потребления. Для каждого клиента у меня есть история ежедневного потребления в течение 1 года. Моя цель - сгруппировать клиентов в кластеры.

Для информации, у меня есть данные за 10 лет с почти 20000 клиентов, и эта кластеризация будет запускаться каждую неделю, поэтому у меня есть временные ограничения, цель, которую они поставили передо мной, - 10 минут для классификации из 10 тысяч человек.

На самом деле то, что я сделал, - кластеризация Kmeans с расстоянием DTW и инициализацией kmeans ++, которую я закодировал в Pyspark с некоторым Pandas UDF, но это действительно долго. Почти час на большом кластере для классификации 10 тысяч клиентов. Однако результаты действительно хорошие.

Как решить эту проблему? Действительно ли DTW - уникальное решение? Потому что это действительно занимает много времени.

Большое спасибо.

Кластеризация временных рядов с помощью Pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Кластеризация временных рядов с помощью Pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы