Я работаю с данными ежедневного потребления. Для каждого клиента у меня есть история ежедневного потребления в течение 1 года. Моя цель - сгруппировать клиентов в кластеры.
Для информации, у меня есть данные за 10 лет с почти 20000 клиентов, и эта кластеризация будет запускаться каждую неделю, поэтому у меня есть временные ограничения, цель, которую они поставили передо мной, - 10 минут для классификации из 10 тысяч человек.
На самом деле то, что я сделал, - кластеризация Kmeans с расстоянием DTW и инициализацией kmeans ++, которую я закодировал в Pyspark с некоторым Pandas UDF, но это действительно долго. Почти час на большом кластере для классификации 10 тысяч клиентов. Однако результаты действительно хорошие.
Как решить эту проблему? Действительно ли DTW - уникальное решение? Потому что это действительно занимает много времени.
Большое спасибо.