Я пытаюсь использовать кластеризацию hdb для 10.000 биомедицинских сигналов. Сначала я использую нейронную сеть автоэнкодера для преобразования сигнала в 256-мерный вектор, поэтому у меня есть 10.000 256-мерных значений, которые я хочу сгруппировать.
С кластеризацией K-среднего это работает, но поскольку распределение в каждом кластер не является ни сферическим, ни эллиптическим, кажется хорошей идеей использовать кластеризацию на основе плотности.
Я попробовал простой первый подход
'' 'cl <- hdbscan (int99.s c, minPts = 5) '' '</p>
, но это просто говорит мне, что все является шумом и у меня 0 кластеров.
Я знаю, что 10.000 точек данных не заполняют много места в 256-мерное пространство.
Так что неплохо было бы увеличить радиус поиска для hdbscan. В документации я вижу параметр xdist. Но нет подсказок, как оценить xdist для заданных данных (расстояния Евклида / Махаланобиса?)
Любая идея найти оптимальный xdist, чтобы я мог получить hdbscan для распознавания кластеров в моих данных (как может K означает)