Я работаю с набором данных с широтой, долготой и датой и временем и 5 миллионами точек в день.
И у меня нет ожидаемого количества кластеров, и в зависимости от дня оно должно измениться.
Я кодирую в Python
, с clickhouse database
для хранения исходных данных.
==> Есть ли способ сделать spatiotemporal clustering
, который включает в себя 3 функции?
Пока что я масштабировал / нормализовал 3 функции и использую MiniBatchKMeans (используемое текущее решение) или Euclidian distance
, но я теряю понятие физического расстояния между точками.
DBSCAN
или HDBSCAN
с Havresine
принимает только 2 функции (в радианах).
Кроме того, неоптимизированное решение для исключения томов, которое не масштабируется (я попробовал ST-DBSCAN, доступный на GitHub, я остановил его после 15-часового запуска только 2 часов данных).
Я ожидаю, что кластеры моих точек данных перегруппируют ближайшие точки по местоположению и времени вместе.