У меня есть набор данных, который выглядит как следующий первый ряд:
Name Geometry Restaurant School Hospital Bank Auto_Repair Gas_Station Salon
Chipotle POINT(-82.458142 27.387703) 1 0 0 0 0 0 0
Тем не менее, мой фактический набор данных имеет 40000 точек и около 400 номинальных характеристик. Я смог объединить свои точки в 400 кластеров, используя DBSCAN, однако это только кластер, основанный на расстоянии. Как я могу учесть свои номинальные характеристики, чтобы такие точки, как магазины Restaurant
и Auto_Repair
, с меньшей вероятностью появлялись в том же кластере, что и точки Restaurant
и Salon
? Буду ли я корректировать свою матрицу расстояний Хаверстина с помощью матрицы сходства по Жаккарду или косинусу?