Алгоритм DBSCAN в основном требует 2 параметра:
eps: specifies how close points should be to each other to be considered a part of a cluster. It means that if the distance between two points is lower or equal to this value (eps), these points are considered neighbors.
minPoints: the minimum number of points to form a dense region. For example, if we set the minPoints parameter as 5, then we need at least 5 points to form a dense region.
Я думаю, что ваш вопрос связан с обоими типами параметров.
eps: если выбранное значение eps слишком мало, Большая часть данных не будет кластеризована. Это будет считаться выбросами, потому что не удовлетворяет количеству точек для создания плотной области. С другой стороны, если выбранное значение слишком велико, кластеры будут объединяться, и большинство объектов будут находиться в одном кластере. EPS следует выбирать на основе расстояния набора данных (мы можем использовать график k-расстояния, чтобы найти его), но в целом небольшие значения eps предпочтительны. Как правило, больше = быстрее.
minPoints: Как правило, минимальные minPoints могут быть получены из числа измерений (D) в наборе данных, например minPoints ≥ D + 1. Большие значения обычно лучше для наборов данных с шумом и будет формировать более значимые кластеры. Минимальное значение для minPoints должно быть 3, но чем больше набор данных, тем больше значение minPoints, которое следует выбрать. В основном, больше = быстрее.