Кластеризация временных рядов с помощью Pyspark - PullRequest
0 голосов
/ 16 июня 2020

Я работаю с данными ежедневного потребления. Для каждого клиента у меня есть история ежедневного потребления в течение 1 года. Моя цель - сгруппировать клиентов в кластеры.

Для информации, у меня есть данные за 10 лет с почти 20000 клиентов, и эта кластеризация будет запускаться каждую неделю, поэтому у меня есть временные ограничения, цель, которую они поставили передо мной, - 10 минут для классификации из 10 тысяч человек.

На самом деле то, что я сделал, - кластеризация Kmeans с расстоянием DTW и инициализацией kmeans ++, которую я закодировал в Pyspark с некоторым Pandas UDF, но это действительно долго. Почти час на большом кластере для классификации 10 тысяч клиентов. Однако результаты действительно хорошие.

Как решить эту проблему? Действительно ли DTW - уникальное решение? Потому что это действительно занимает много времени.

Большое спасибо.

...