Тонкая настройка hdbscan - PullRequest
0 голосов
/ 07 августа 2020

Я пытаюсь использовать кластеризацию hdb для 10.000 биомедицинских сигналов. Сначала я использую нейронную сеть автоэнкодера для преобразования сигнала в 256-мерный вектор, поэтому у меня есть 10.000 256-мерных значений, которые я хочу сгруппировать.

С кластеризацией K-среднего это работает, но поскольку распределение в каждом кластер не является ни сферическим, ни эллиптическим, кажется хорошей идеей использовать кластеризацию на основе плотности.

Я попробовал простой первый подход

'' 'cl <- hdbscan (int99.s c, minPts = 5) '' '</p>

, но это просто говорит мне, что все является шумом и у меня 0 кластеров.

Я знаю, что 10.000 точек данных не заполняют много места в 256-мерное пространство.

Так что неплохо было бы увеличить радиус поиска для hdbscan. В документации я вижу параметр xdist. Но нет подсказок, как оценить xdist для заданных данных (расстояния Евклида / Махаланобиса?)

Любая идея найти оптимальный xdist, чтобы я мог получить hdbscan для распознавания кластеров в моих данных (как может K означает)

...