Я использую dbscan из sklearn и HDBSCAN для кластеризации некоторых документов.
vectorizer = TfidfVectorizer(stop_words=mystopwords)
X = vectorizer.fit_transform(y)
dbscan = DBSCAN(eps=0.75, min_samples = 9)
clusters = dbscan.fit_predict(X)
Теперь, как я могу получить верхние термины в каждом кластере? При использовании kmeans мы делаем что-то вроде следующего:
order_centroids = kmeans_model.cluster_centers_.argsort()[:, ::-1]
for i in range(true_k):
print("Cluster %d:" % i),
for ind in order_centroids[i, :true_k]:
print(' %s' % terms[ind])
Но в dbscan и hdbscan у нас нет центроидов. Как найти верхние термины в кластерах dbscan или hdbscan?