Есть ли функция Python для пространственно-временной кластеризации? - PullRequest
0 голосов
/ 27 июня 2019

Я работаю с набором данных с широтой, долготой и датой и временем и 5 миллионами точек в день. И у меня нет ожидаемого количества кластеров, и в зависимости от дня оно должно измениться.

Я кодирую в Python, с clickhouse database для хранения исходных данных.

==> Есть ли способ сделать spatiotemporal clustering, который включает в себя 3 функции?

Пока что я масштабировал / нормализовал 3 функции и использую MiniBatchKMeans (используемое текущее решение) или Euclidian distance, но я теряю понятие физического расстояния между точками.

DBSCAN или HDBSCAN с Havresine принимает только 2 функции (в радианах).

Кроме того, неоптимизированное решение для исключения томов, которое не масштабируется (я попробовал ST-DBSCAN, доступный на GitHub, я остановил его после 15-часового запуска только 2 часов данных).

Я ожидаю, что кластеры моих точек данных перегруппируют ближайшие точки по местоположению и времени вместе.

...