Я сейчас работаю над проектом и собираюсь sh для кластеризации многомерных данных. Я попробовал кластеризацию K-Means и DBSCAN, оба были совершенно разными алгоритмами.
Модель K-Means вернула довольно хороший результат, она вернула 5 кластеров, но я читал, что когда размерность велика, евклидово расстояние не работает, поэтому я не знаю, может доверять этой модели.
При испытании модели DBSCAN модель генерировала много точек шума и сгруппировала много точек в одном кластере. Я попробовал метод dist plot KNN, чтобы найти оптимальный eps для модели, но я не могу заставить модель работать. Это привело к моему заключению, что, возможно, плотность нанесенных точек очень высока, и, возможно, именно поэтому я получаю много точек в одном кластере.
Для кластеризации я использую 10 различных столбцов данных , Должен ли я изменить алгоритм, который я использую? Какой будет лучший алгоритм для многомерных данных и с менее изменяющейся плотностью?