DBSCAN для длинных точек и номинальных характеристик - PullRequest
0 голосов
/ 06 июля 2018

У меня есть набор данных, который выглядит как следующий первый ряд:

Name Geometry  Restaurant  School  Hospital  Bank Auto_Repair Gas_Station Salon
Chipotle POINT(-82.458142 27.387703) 1 0  0 0 0 0 0

Тем не менее, мой фактический набор данных имеет 40000 точек и около 400 номинальных характеристик. Я смог объединить свои точки в 400 кластеров, используя DBSCAN, однако это только кластер, основанный на расстоянии. Как я могу учесть свои номинальные характеристики, чтобы такие точки, как магазины Restaurant и Auto_Repair, с меньшей вероятностью появлялись в том же кластере, что и точки Restaurant и Salon? Буду ли я корректировать свою матрицу расстояний Хаверстина с помощью матрицы сходства по Жаккарду или косинусу?

...