Как найти лучшие термины в кластерах dbscan или hdbscan? - PullRequest
0 голосов
/ 16 марта 2020

Я использую dbscan из sklearn и HDBSCAN для кластеризации некоторых документов.

vectorizer = TfidfVectorizer(stop_words=mystopwords)
X = vectorizer.fit_transform(y)
dbscan = DBSCAN(eps=0.75, min_samples = 9)
clusters = dbscan.fit_predict(X)

Теперь, как я могу получить верхние термины в каждом кластере? При использовании kmeans мы делаем что-то вроде следующего:

order_centroids = kmeans_model.cluster_centers_.argsort()[:, ::-1]
for i in range(true_k):
  print("Cluster %d:" % i),
  for ind in order_centroids[i, :true_k]:
      print(' %s' % terms[ind])

Но в dbscan и hdbscan у нас нет центроидов. Как найти верхние термины в кластерах dbscan или hdbscan?

...