Я хочу использовать DBSCAN с метрикой sklearn.metrics.pairwise.cosine_simility для кластеризации точек, косинусное сходство которых близко к 1 (т. Е. Чьи векторы (из "источника") параллельны или почти параллельны).
Проблема:
eps - это максимальное расстояние между двумя выборками для них, которое DBSCAN рассматривает как находящееся в одном и том же районе, что означает, что если расстояние между двумя точками равно ниже или равный eps, эти точки считаются соседями;
, но
sklearn.metrics.pairwise.cosine_simility выплевывает значения от -1 до 1, и я хочу, чтобы DBSCAN учелдве точки, чтобы быть соседями, если расстояние между ними, скажем, между 0,75 и 1, то есть больше или равно 0,75.
Я вижу два возможных решения:
передать диапазон значений параметру eps DBSCAN, например eps = [0.75,1]
Передать значение eps = -0.75 в DBSCAN, но (каким-то образом) заставить насe отрицательная матрица косинусных сходств, которую выплевывает sklearn.metrics.pairwise.cosine_simility
Я не знаю, как реализовать ни один из них.
Anyруководство будет оценено!