Алгоритм машинного обучения для определения областей с временем простоя - PullRequest
0 голосов
/ 12 октября 2019

Я получаю географические координаты в реальном времени для остановок транспортных средств, и я хотел бы определить горячие точки местоположения в данных для определения геозон. Я пытался использовать DBSCAN для этого:

from sklearn.cluster import DBSCAN
from sklearn import metrics

# represent GPS points as (lat, lon)
coords = df_out.as_matrix(columns=['glat', 'glng'])
# eps is the max distance that points can be from each other to be considered in a cluster
# min_samples is the minimum cluster size (everything else is classified as noise)
db = DBSCAN(eps=0.01/6371, min_samples=35, algorithm='ball_tree', metric='haversine').fit(np.radians(coords))

Но это не удается с кластеризацией правильно и зависает каждый раз, когда я загружаю данные с 500k + строк

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...